1、类型
1、Structured Data
结构化数据有明确的数据格式定义,有哪些字段,各个字段的数据类型是事先定义的。
SQL是标准的处理语言。
2、Semi-structured data
半结构化数据
3、Unstructured data
非结构化数据
邮件正文、文本文档、html文件等。
2、元数据
描述数据的结构和建立方法的数据。
2、1 技术元数据
数据源信息,数据转换描述(源数据到目标数据的映射?);
数据对象和数据结构定义;
数据清理和数据更新的规则;
数据历史(多版本)规则;
记录的回溯(记录的数据来源);
数据导入历史纪录;数据发布历史记录;数据备份历史记录;用户访问权限(记录级别?属性级别?)。
2、2 业务元数据
业务主题的描述,相关的数据、查询和报表;
数据库中有什么数据?怎么得到的?怎么访问?
2、3 其他
对象的固有属性
对象的动态属性:动态绑定!
每个用户可以定制关心的本体类型。
参考
https://datascience.berkeley.edu/structured-unstructured-data/
http://blogs.gartner.com/darin-stewart/
http://www.doc88.com/p-3826995945601.html : 很牛的描述,很像本体建模。