在卫生领域信息化的快速发展过程中,积累了大量来自于不同系统、不同机构的异构数据资源。伴随着对这些数据资源进行整合与交流的需求不断增长,数据集这一数据组织方式得到了应用和推广。
数据集
具有一定主题,可以标识并被计算机处理的数据集合,旨在为相关业务数据的登记提供一套术语规范、定义明确、语义语境无歧义的标准,数据元是卫生信息的最基本的结构化(标准)单元,每一项医疗卫生业务信息都可由若干数据元组成,例如一张标准格式的病案首页就由100多个数据元组成。围绕一定业务主题形成的数据元集合称为数据集,数据元的实际应用通常是以基本数据集的形式实现的。
主题:围绕着某一项特定任务或活动进行数据规划和设计时,对其内容进行的系统归纳和描述。通常数据集主题应具有划分性和层级性。划分性是指主题间可通过不同的命名,将相同属性的主题归并在一起形成相同的类,将不同属性的主题区分开形成不同的类;层级性是指主题可被划分成若干子主题或子子主题。
可标识:指能通过规范的名称和标识符等对数据集进行标记,以供识别。标识与名称的取值需要通过具体的命名或编码规则来规范。
能被计算机处理:指可以通过计算机技术(软硬件、网络),对数据集内容进行发布、交换、管理和算机系统中以数值、日期、字符、图像等不同的类型表达。
数据集合:指由按照数据元所形成的若干数据记录所构成的集合。例如,病案首页数据集由主索引、基本信息、诊断信息、入出院信息、手术信息、费用信息等不同数据组成。
卫生健康信息数据集
卫生健康信息数据集是在卫生健康领域,为满足政府卫生决策、业务处理、科学研究、信息发布与绩效评价等需求,按照数据集概念设计、归纳、整合的主题信息集合。卫生健康领域的数据集主要可以
归纳为三个方面:
信息发布类统计数据集:如中国卫生健康统计年鉴中卫生机构设置及规模、卫生人员资源的地区分布、卫生经费的筹集及分配等数据集,各类卫生机构的统计月报、年报,以及满足某一专项统计需求通过统计收集、归纳、整理、报告形成的数据集。例如:卫生统计指标。
业务系统建设类的基本数据集:包括医疗服务、公共卫生、药品供应、医疗保障、卫生管理等领域为了满足业务信息系统规范化建设和领域内部以及领域间数据交换与共享需求,设计归纳的各个子系统(或者功能模块)所包含的最小数据元素的集合。如:儿童出生登记、个人健康档案、住院病人入出转、居民死亡登记报告电子病历基本数据集、疾病管理基本数据集等数据集。
为满足特定目的收集整理制作的数据集:包括通过调查、观察、监测、检测、试验、实验等方式获取的满足科学研究、业务咨询或卫生服务决策等需求的数据集。如:近年来国家投入建设的国家人口健康科学数据集、卫生服务调查数据集、疾病及危险因素调查等内容的数据集。