如何做数据测试?

-- 转自挖数网 自己备份用 这个网貌似挂掉了

数据质量是数据应用的核心基础,数据测试是非常重要的一环,若质量把控不够严格,后续所有的行为都可能有偏差甚至错误,所以做好数据测试很关键,如下是针对怎样做好数据测试的一些总结

核心理论

以小博大,即用小部分数据验证全部数据,所以如何选择小去验证大呢,主要是构成结果数据的维度和度量组合,从中找到可覆盖全部的小部分数据

对比对象

对比对象指结果数据同哪些数据进行比对,从而验证数据的准确,即一方数据是准确的,另一方基于其进行的二次计算,测试二次计算的过程是否存在问题。数据测试的主要场景是数仓模型、应用层报表、临时数据,这三块对比对象有所不同

(1)数仓模型

数据来自业务系统,经过处理整合成数仓模型,便于应用于更复杂的数据场景,因此假设业务系统数据正确,数仓模型的数据与其对上即可

(2)应用层报表

数据是基于数仓模型开发的结果,中间可能会有DM、RPT层等,此处统称为应用层,假设数仓模型数据正确,应用层和数仓模型对上即可

补充:若在已开发好的应用层上迭代,部分未改变任何逻辑的数据可同报表原有数据比对,修改逻辑的数据和数仓模型对比即可

(3)临时数据

数据都有临时的逻辑和数据来源,和来源的数据对应上即可


*如何测试呢?*数仓模型、应用层、临时数据有各自的特色,分别展开讨论

“数仓模型”

需测试的目标表格式如下


image.png

步骤一 大数校验

测试主题:目标表和源表的数据条数是否一致

如源数据有10000条,目标表中是否有10000条(前提是源数据没有脏数据的前提下)

步骤二 预知校验

测试主题:各维度存在的枚举值是已知的,检验数仓中各维度枚举值是否完整,如门店是否包含全部门店、渠道是否包含全部渠道等

**
**

步骤三 各维度-度量值的明细数据测试

测试主题:针对具体的维度、度量值的测试

(1)设计表格,协助测试

数据可看的维度视角非常多,通过测试表格把思路梳理清楚,避免想到什么测试什么造成的遗漏,且记录测试的过程,便于回顾总结,看似很麻烦,但数据质量是首要保证,且执行起来非常清晰,磨刀不误砍柴工

格式如下

image.png

注释:

a.指标是需要测试数据表的度量值,全部需测试

b.组合维度指确定好的以小博大的小,由结果表中各种不同维度组合而成的数据,具体后续有详细说明

(2)确定需测试的组合维度

方法:数据模型保存的是最细颗粒度的数据,因此粒度是一个,但每个维度的枚举值却有多 个,因此需基于各维度的枚举值,找到可代表全部数据的枚举值互相组合,从而确定测试的组合维度

案例:维度枚举值如下

image.png

基于上表确认测试的组合维度值,基于选择的枚举值互相组合后仍很多,可选择任意交叉组合,筛选原则是尽可能保证每个维度的枚举值出现的频率均等

*此处选择组合成9组不同的值作为“组合维度”*

  • 门店1&天猫&生鲜的商品1&当日配送&是退货单&是预售
  • 门店2&京东&食品的商品1&日次配送&不是退货单&不是预售
  • 门店3&唯品会&用品的商品1&自提&是退货单&是预售
  • 门店1&自营&加工的商品1&次日配送&不是退货单&不是预售
  • 门店2&天猫&食品的商品2&当日配送&是退货单&不是预售
  • 门店3&京东&生鲜的商品2&次日配送&不是退货单&是预售
  • 门店1&唯品会&用品的商品2&自提&不是退货单&不是预售
  • 门店2&自营&加工的商品2&自提&是退货单&不是预售
  • 门店3&天猫&食品的商品2&次日配送&不是退货单&是预售

(3)测试方法

数据在业务系统有最直接的结果,对应条件筛选好后,直接比对两者的度量值(如销售额)是否一致,结果记录在测试表中,完善的记录可帮助全面的看出问题在哪,需如何完善

“应用层报表”

结果数据是经过各种聚合计算得来,因此不需数仓的“条数比对”

步骤一 预知校验

测试主题:每个维度的枚举值是否完整

如全国/区域,是否应该出现的区域都出现了,比如全国/区域/门店,是否每家门店都出现了

步骤二 各维度-度量值的明细数据测试

测试主题:针对具体的维度、度量值的测试

(1)设计表格,协助测试

和数仓类似,此处不再重复

(2)确定需测试的组合维度

方法:应用表的维度是事先约定好的,需针对每个维度选择合适的枚举值,枚举值和数仓的确认过程是一样的,此处不再复述

补充:枚举值的选择和数仓有差别,因数仓是一个维度粒度,但应用层在维度上存在很多组合,粒度不是最细的,有很多层次的归属关系,如:全国累计、全国各区域累计、全国各区域各门店累计,这三者之间还有从属关系,所以测试粒度的枚举值选择,和数仓不同

案例:

image.png

每个维度最少选择3个枚举值参与测试,若时间充裕可把数量提升,由此可确保更完整

选择如下由不同枚举值组合而成的组合维度参与测试

image.png

(3)测试方法
方法1:把原始数据导出到excel进行各种规则组合和结果数据计算对比
• 优点1:看数据时,非常直观了解原始数据的模样,或许可让测试者发现一些之前忽略的盲点,毕竟真实数据中藏着什么其他数据,我们是没办法预知的
• 优点2:excel处理起来很便捷,筛选过滤加工,但有个很明显的缺点就是没办法快速高效的处理很大批量的数据,所以适用于数量小的场景下进行测试
方法2:基于计算规则编辑好SQL,从数仓直接计算的结果和结果数据对比
• 方法1的优点是方法2的缺点,方法2的缺点就是方法1的优点
上述方式在实际中可灵活互相组合应用,不是限定死
步骤三 具有从属关系维度之间的度量数据要一致
测试主题:结果表中,不同维度粒度之间是有从属关系的,这类数据必须保持一致。本处的从属关系指主维度的数据可由从维度的累积而成,祥见后续“确认从属维度关系”
(1)设计表格

image.png

(2)确认从属维度关系
什么是从属关系
如组合维度有 全国、全国/省、全国/省/门店,其中区域的累计是全国,区域对应门店的累计是区域的累计,所以这三者之间的数据需一致
从属关系确立的规则
“主维度”属于汇总方的数据,“从维度”属于主维度数据进行进一步的拆分
确定好不同维度之间的从属关系,针对每个从属关系验证数据是否对的上
案例:


image.png

注意:部分度量值,在具有从属关系的维度上,是不能直接累加匹配的,如订单量,如果是累加的关系,就是错误的,需独立计算,需特别注意下
(3)测试数据
针对从属关系的数据需进行全部匹配校验
如:主维度“全国”对应的所有“从维度”,在“度量值:销售额”上,需全部进行累计校验,确保完全一致。将结果记录在测试表中,可清晰明了的看到测试过程的问题和全局
“临时数据测试”
临时数据的特点是完全基于新的规则获取的数据,相当于把开发干的活都做了一遍,但好处是维度少、数据少,需验证的数据不多,因此无需那么复杂的设计测试表格。因抽数据的SQL脚本是自己写的,自检相对来说比较难,所以分两步走
步骤一 给业务看
因长久地观察跟踪研究,业务对自己负责业务板块的数据敏感度很高,明显错误的数据大多数情况下一眼是看得出来,所以让对方帮忙做一手的判断效率比较高
如,某个门店的SKU,最多4000上下,初次提供的数据是10000,业务看到后直接提出来了疑问,倒逼数据提供者快速查找问题出在哪里
步骤二 自校验
针对部分数据导出其对应的底层明细数据,抽样检查与结果进行匹配校验
补充重点
上述步骤要做好,还有一些关键细节,在此处提一下,后续也会尝试针对关键点进行展开分享,看如何可以做得更好
(1)数据产品(or分析师)与数据开发间合理的协作方式
协作方式是否合理非常重要,很多细节开发更清楚,但业务逻辑产品分析师更清楚,需互相更融洽渗透,做好分工协作
(2)让业务开发更好的理解数据产品的真实诉求
如何与业务系统的开发和产品沟通的更好,让他们更好的理解数据产品的真实诉求,可以和他们分享数仓的建设过程,帮助更好的理解自己的某些行为可能会给数据开发带来什么样的后果
(3)底层表摸底
对底层表结构在正式开工之前进行摸底工作,这样可以便于加深熟悉,避免走坑
写在最后
数据测试是一门需要耐心细心的辛苦活,方法也是需要持续优化,非常欢迎有自己方法的你来补充,一起来完善

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容