基于互联网大数据的事件智能抓取和画像软件测试

1 引言

1.1 编写目的

1.2 测试目标

1.3 读者对象

1.4 术语定义

2 环境搭建

2.1 测试硬件环境

2.2 软件环境

3 测试范围

3.1测试功能点

3.2 测试类型

3.3 准备工作

3.4 测试流程

4 测试用例

A 功能性性需求

4.1 爬虫测试

4.1.1 新浪网数据源

4.1.2 E展网数据源

4.1.3 大麦网数据源

4.1.4 聚橙网数据源

4.1.5 交通管制网数据源

4.1.6 永乐网数据源

4.1.7 异常天气网数据源

4.2 数据去重精确性测试

4.2.1 将多条重复标题数据存入mongodb数据库进行去重,打印到csv表

4.2.2 将标题文字重复关键词字数比例大于%65的数据存入数据库进行去重,打印到csv表

4.2.3 将标题文字重复关键词字数比例小于等于%65的数据存入数据库进行去重,打印到csv表

4.3 事件属性自动化提取精确性测试

4.3.1 根据大赛提供的体育赛事.演唱会.展会样本,用编写的体育.演唱会.展会事件属性自动化提 取算法,进行提取比对

4.4 事件画像-------可视化展示测试

4.4.1 将上海城市热度设定为最大,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度词云图

4.4.2 将上海城市热度设定为最小,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度词云图

4.4.3 将上海城市的第一天热度设定最低,第二天热度+1,依次类推.....,直到第6天热度-2,第 七天热度+1,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度折线图

4.5 每天爬取一次

4.5.1 因为在程序中时间管理员算法,在每天2点后查看数据库,记录数据是否逐天增加

5 测试结果及缺陷分析

5.1 测试执行情况与记录

5.1.1 缺陷汇总

5.1.2 缺陷分析

5.1.3 缺陷残留以及未解决问题

5.2 测试结论

6 影响方案的意外因素及建议

6.1 意外因素

6.2 建议

B 非功能性测试

<h4>1、引言</h4>

1.1 编写目的

1.2 测试目标

将对基于互联网大数据的事件智能抓取和画像的测试方案,测试范围,测试的软件硬件环境,测试进度,测试流程进行详细的定义和整体的描述

1.3 读者对象

本方案的预期读者是:项目负责人,测试人员,运维人员,和其他相关人员

1.4 术语定义

术语 定义
测试需求 组件/系统中能被一个或多个测试用例验证的条目或事件
性能测试 性能测试是通过自动化的测试工具模拟多种正常、峰值以及异常负载条件来对系统的各项性能指标进行测试

<h4>2 环境搭建</h4>

2.1 测试硬件环境

资源名称/类型 配置
测试PC Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz,3401 Mhz,8GB
操作系统 windows7 64位

2.2 软件环境

资源名称类型 配置
数据库 mongodb3.4.3
应用软件 python 3.6.1(64bat)

3 测试范围

编号 测试点 对应算法 备注
1 爬取数据源 定向爬虫
2 数据清洗去重 去重算法
3 属性提取
4 画像建模,可视化展示
5 定时启动爬虫

3.1 测试功能点

类型 定义
功能性需求 有具体完成内容的要求
非功能性需求 是指软件产品为满足用户业务需求而必须具有且除功能需求以外的特性,包括系统的性能、可靠性、可维护性、可扩充性和对技术和对业务的适应性等

3.2 测试类型

3.3 准备工作

1 测试功能点全部通过功能测试,确保功能上没有问题

2 测试环境搭建

3 准备好数据源网站

4 创建测试用例,并配置好每个用例的环境

5 测试过程中保存好测试数据和分析结果,并规范对执行结果进行命名

3.4 测试流程

测试.png

<h4>4 测试用例</h4>

A功能性需求测试

4.1.1 新浪网数据源

新浪网爬虫准确获取数据源测试,编写新浪网定向爬虫提取指定数据源

用例编号 1
用例名称 定向爬取政治会议信息
参考信息
预期结果 结果以键值对方式存入数据库
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对方式存入数据库
测试目的 能否准确获取给定数据源并存入数据库

4.1.2 E展网数据源
E展网准确获取数据源测试

用例编号 2
用例名称 定向爬虫展会网信息
参考信息 比赛,给定的事件样本(类型展会网的事件样本)
预期结果 数据以键值对存入,属性与样本属性相同
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对存入,属性与样本属性相同
测试目的 能否准确获取数据源中数据属性

编写E展望定向爬虫提取指定数据

4.1.3 大麦网数据源
大麦网爬虫准确获取数据源测试

编写大麦网定向爬虫提取指定数据源

用例编号 3
用例名称 定向爬虫大麦网信息
参考信息 比赛,给定的事件样本(类型演唱会,体育的事件样本)
预期结果 数据以键值对存入,属性与样本属性相同
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对存入,属性与样本属性相同
测试目的 能否准确获取数据源中数据属性

4.1.4 聚橙网数据源
聚橙网爬虫准确获取数据源测试

编写聚橙网定向爬虫提取指定数据源

用例编号 4
用例名称 定向爬虫聚橙网信息
参考信息 比赛,给定的事件样本(类型体育,演唱会的事件样本)
预期结果 数据以键值对存入,属性与样本属性相同
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对存入,属性与样本属性相同
测试目的 能否准确获取数据源中数据属性

4.1.5 交通管制网数据源

交通管制网爬虫准确获取数据源测试

编写交通管制网网定向爬虫提取指定数据源

用例编号 5
用例名称 定向爬虫交通管制网网信息
参考信息
预期结果 数据以键值对存入,属性与样本属性相同
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对存入,属性与样本属性相同
测试目的 能否准确获取数据源中数据属性

4.1.6 永乐网数据源

永乐网爬虫准确获取数据源测试,编写永乐网定向爬虫提取指定数据源

用例编号 6
用例名称 定向爬虫永乐网信息
参考信息 比赛,给定的事件样本(类型体育,演唱会的事件样本)
预期结果 数据以键值对存入,属性与样本属性相同
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对存入,属性与样本属性相同
测试目的 能否准确获取数据源中数据属性

4.1.7 异常天气网数据源

异常天气网爬虫准确获取数据源测试,编写异常天气网定向爬虫提取指定数据源

用例编号 7
用例名称 定向爬虫异常天气网信息
参考信息
预期结果 数据以键值对存入,属性与样本属性相同
环境要求 Python3.6.1 网络良好 mongodb服务开启
运行结果 数据以键值对存入,属性与样本属性相同
测试目的 能否准确获取数据源中数据属性

4.2 数据去重精确性测试

4.2.1 将多条重复标题数据存入mongodb数据库,经过去重算法后以csv格式打印出

用例编号 8
用例名称 将多条重复标题数据存入mongodb数据库,经过去重算法后以csv格式打印出
参考信息 去重算法设计
预期结果 与数据库比对去重后的csv表,数据库重复数据,在csv表中不存在
环境要求 Python3.6.1 mongodb服务开启
运行结果 去重后csv表中没有相同标题的数据
测试目的 能否去除相同数据

4.2.2 将标题文字重复关键词字数比例大于%65的数据存入数据库进行去重,打印到csv表

用例编号 9
用例名称 将标题文字重复关键词字数比例大于%85的数据存入数据库进行去重,打印到csv表
参考信息 去重算法设计
预期结果 与数据库比对去重后的csv表,数据库重复数据,在csv表中不存在
环境要求 Python3.6.1 mongodb服务开启
运行结果 去重后csv表中有相同标题的数据
测试目的 能否去除相似度%65的相同数据
测试结果 能去除相似度%65以上的标题

4.2.3 将标题文字重复关键词字数比例小于等于%65的数据存入数据库进行去重,打印到csv表

用例编号 10
用例名称 将标题文字重复关键词字数比例小于等于%85的数据存入数据库进行去重,打印到csv表
参考信息 去重算法设计
预期结果 与数据库比对去重后的csv表,数据库重复数据,在csv表中不存在
环境要求 Python3.6.1 mongodb服务开启
运行结果 去重后csv表中有相同标题的数据
测试目的 能去除相似度小于等于%65的相同数据
测试结果 不能去除相似度%65以下的标题

4.3事件属性自动化提取准确性测试

4.3.1 根据大赛提供的体育.展会.演唱会赛事样本数据,用编写的体育.演唱会.展会事件属性自动化提取算法,进行提取比对

用例编号 11
用例名称 根据大赛提供的体育.展会.演唱会赛事样本数据,用编写的体育.展会.演唱会事件属性自动化提取算法,进行提取比对
参考信息 件属性自动化提取算法
预期结果 与样本数据比对属性提取一致
环境要求 Python3.6.1 mongodb服务开启
运行结果 多次比对误差率小于%15
测试目的 能够精确提取属性
测试结果 经测试,精确度达到%85左右

4.4 事件画像-------可视化展示测试

4.4.1 将上海城市热度设定为最大,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度词云图

用例编号 12
用例名称 将上海城市热度设定为最大,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度词云图
参考信息
预期结果 词云图中,该城市(上海)所占区域最大
环境要求 Python3.6.1 mongodb服务开启
运行结果 上海区域最大
测试目的 测试热度最大是否,改词的区域最大

4.4.2 将上海城市热度设定为最小,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城热度词云图

用例编号 13
用例名称 将上海城市热度设定为最小,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度词云图
参考信息
预期结果 词云图中,该城市(上海)所占区域最小
环境要求 Python3.6.1 mongodb服务开启
运行结果 上海区域最小
测试目的 测试热度最小是否,改词的区域最小

4.4.3将上海城市的第一天热度设定最低,第二天热度+1,依次类推.....,直到第6天热度-2,第七天热度+1,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度折线图

用例编号 14
用例名称 将上海城市的第一天热度设定最低,第二天热度+1,依次类推.....,直到第6天热度-2,第七天热度+1,将该数据插入到csv表中,事件画像gui程序遍历所有csv事件,画出七天城市热度折线图
参考信息
预期结果 折线图中,热度1~5天呈上升趋势,第六天下降,第七天上升
环境要求 Python3.6.1 mongodb服务开启
运行结果 折线图上升,然后6天下降,七天上升
测试目的 测试折线图,是否根据热度上升而上升,热度降低而变低

B非功能性测试

4.5.1 因为在程序中时间管理员算法,在每天2点后查看数据库,记录数据是否逐天增加

用例编号 15
用例名称 定时运行爬虫,查看数据库
参考信息
预期结果 数据库中数据增加,而且日志文件中记录程序运行时间
环境要求 Python3.6.1 mongodb服务开启
运行结果 数据增加,日志文件记录
测试目的 测试爬虫能否按照特定的时间去运行
功能测试点 测试用例编号 缺陷汇总 缺陷分析 缺陷解决 残留缺陷 备注
获取数据源数据 1,2,3,4,5,6,7 0 0 0 0
去重算法 8,9,10 去重精度达不到100%,就会导致不同数据被清洗掉 数据源的关键词相似度大,时间,地点,等,不可区分性 针对时间,地点,等关键词进行着重区分
属性自动化提取 11 存在小几率性的误差 数据关键词太少,难以区分 1 1
可视化展示 12,13,14 0 0 0 0
定时爬取 15 0 0 0 0 主机和服务器务必要开启

5.1 测试执行情况与记录

5.2 测试结论

针对几项不同功能点的测试,使用了不同的测试用例,测试用例执行结果都与预测结果相同,虽然在去重功能以及属性自动化提取功能,测试结果没有达到100%相同,存在不可避免的小几率误差,但是精度达到了%85。

<h4>6 影响方案的意外因素及建议</h4>

6.1 意外因素

在获取数据源时,我们的程序是根据网站的结构定向爬取数据,所以如果网站结构改变的话,有可能获取不到正确的数据

6.2 建议

当程序获取不到数据时,请查看网站结构是否已更变,如果更改,则需要根据网站结构,重新编写爬虫

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,337评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,560评论 3 406
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,632评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,219评论 1 303
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,219评论 6 401
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,670评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,018评论 3 431
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,000评论 0 280
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,552评论 1 326
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,565评论 3 347
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,692评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,280评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,009评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,435评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,587评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,276评论 3 383
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,752评论 2 367

推荐阅读更多精彩内容