应用程序中的数据处理

在常见的应用中,数据处理是必不可少也是至关重要的一部分,这里对近期关于数据处理的一些收获简单进行总结

数据安全性

我们项目中使用了 AWS 的基础设施,同时部署了 Dev 和 Prod 两套环境。由于是一个旧系统翻新,所以使用了原有数据源作为两个环境的数据源。出于对数据安全性的考虑,我们采取了以下几个措施

1. Dev 环境中对于 PI 信息进行混淆

我们在 Dev 环境中,对于 PI 信息使用了简单的混淆操作,例如使用一组固定数据作为可选项随机选取。

  • 好处是避免了用户真实信息在开发环境暴露的风险
  • 弊端是我们无法验证所有真实数据可能的情况,对测试提出了一定的要求,甚至可能需要在上线之前在生产环境再次进行测试;同时数据可选太少可能会出现较多的重复数据导致不容易区分

2. 数据存留的地方均进行加密保护

主要包括基础设施层面以及应用层面的加密,加密方式可以使用 AES 对称加密对大批量的数据进行加密,使用非对称加密如 KMS 对于少量关键数据进行加密

基础设施部分

  • S3 存储(云存储)
  • EC2 的数据卷 EBS
  • ElasticSearch 等中间件的存储
  • 内部传输过程中的数据

应用层面

  • 数据库密码
  • 各种中间件的密码
  • 第三方授权码
    可以通过使用密码库、云环境参数等方式传入这些数据
    同时可以使用 rattic 或者 last pass 等密码管理工具在团队中对密码进行统一的管理

3. 日志中不打印敏感数据

  • 日志中仅打印足够调试的内容,对于大量数据以及敏感信息,仅打印相关的ID以便后期需要时进行查询
  • Prod 中需要保留的日志级别确保为 Info 及以上
  • 保证你所使用的日志打印工具可以正确处理不同的日志级别,出现过日志级别事实上未生效的情况

数据迁移

旧数据迁移是有历史数据的系统都会面临的一个问题,如果对迁移前后的数据结构均有掌控权,做起来会容易一些。如果老系统是一个不熟悉的系统,那需要做一些额外的工作来保护数据迁移的整个过程。这些方在一些数据项目中也有用到,不过实现的方式可能略有不同。

  1. 建立新老系统之间字段的 Mapping 表(Excel)。详细列出字段的映射关系、数据类型以及限制,保障数据迁移的准确性和完整性
  2. 建立 Migration 表(Database)。记录原始数据,几乎不做任何更改,以字符串记录,保障有原始数据的记录。额外记录数据的更新时间,已经更新过的数据在下次同步时可以跳过
  3. Migration Error 表(Database)。
  • 记录数据迁移过程中遇到的错误,对错误进行分类。可以分为数据错误(可继续分类,重试无法解决)、处理错误(重试可能得到解决)
  • 同时记录时间,便于查询处理
  • 该 Error 表可能有两个,一个是从原数据表到 Migration 表过程中遇到的错误,一个是 Migration 表写入实际表中遇到的错误。
  • 遇到 Error 时捕获并记录,不中止 Migration 的持续进行
  1. Migration 需要支持实时同步(定时任务)和指定全量更新(按时间等条件)
    如果出现逻辑上的修改,可以通过全量 Migration 的方式实现数据的更新,要注意这种方式要求不能新生产数据,否则不会被更新到

数据校验

数据校验简单可以分为前端数据校验和后端数据校验。

  • 前端数据校验是对用户输入数据的限制,提高输入数据的质量。
  • 后端数据校验是对系统的保护,防止恶意请求导致系统异常。
    这里的前后端校验均可以包含对单个字段进行校验,或者对多个字段形成的组合逻辑进行校验。后端校验可以包括一些第三方校验,将数据提交到第三方系统进行一些验证。
    前端也可以从后端获取数据校验结果并进行展示。该方式与前端即时校验相比,其优劣在于:
    劣势:
  • 反馈周期长,需要发送请求并等待请求返回
  • 后端的数据模型可能与前端不完全一致,校验结果可能并不能轻易的直接展示给用户并帮助他们完善数据的填写
    优势:
  • 可以与外部系统集成,即第三方校验
  • 可以从自己系统中读取其它部分的数据配合完成校验
    需要根据项目的实际情况,从时间、人力的投入与业务价值等各方面进行权衡。

第三方接口调用

一个应用系统多多少少都会有与其它系统集成的需求,第三方接口调用几乎是一个必经之路。常见的接口方式有:

  1. SOAP 请求,请求内容全部包含在 SOAP 的 payload 里面,需要对 SOAP 的结构有一定的了解。SOAP 的 wsdl 中有对请求出入参和结构较为完整的描述,有一定的可读性,但结构较为复杂,需要消耗一些时间
  2. Restful 请求,但是 payload 还是需要通过 xml 格式提供,需要了解 xsd,配合相应的文档来完成请求
  3. Restful 请求,payload 为 json 格式。如果使用 swagger UI 等文档工具,便可以方便的查看请求示例并进行尝试。或者通过阅读文本文档来构建
  4. GraphQL 请求,一般为 json 格式。可以根据提供的 schema 来选择需要的内容进行请求

Mapping 表

如果是一个较复杂的系统或者接口,可能有数百个字段,开发人员不一定了解这些字段的含义,因此可以考虑建立一个 Mapping 表,并添加一些说明来帮助开发工作的顺利进行。

建立对外的 Resource 模型

如果有条件,一定建立对外的 Resource 模型来避免现有系统和外部系统过于耦合,并将两个系统的转换部分独立出来。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容