4.1.1.8 Origin Metadata
4.1.1.8.1 Origin Metadata for Variables
还是以SDTMIG V3.2为例,穿插3.4的不同。
Define.xml 中的“Origin”列用于说明数据的来源。是为了清楚地向reviewer说明数据:是否来自CRF(并且是可以从注释的CRF 中溯源)、是否是衍生的(Derived)(并且可以根据一些衍生规则溯源)、是否是根据一些主观规则赋值(Assigned)
(可以根据外部评估者溯源)等。SDTMIG 中定义了以下几种受控术语用于说明“来源(Origin)” (请注意:也可以根据其他规则定义一些其它值)。
3.4:数据可以是被colletcd(CRF上,来自供应商(vendor),来自设备(device)),derived,或者assigned; CRF数据可以从注释的CRF 中溯源,衍生数据可以根据一些衍生规则溯源。Define.xml specification是Origin值的最权威的来源解释。可以使用SDTMIG的元数据提交指南 (Metadata Submission Guidelines, MSG) 引用其他指导和支持示例。
CRF:在define.xml 中指定 “CRF” (及其对应页码参考)作为Origin 意味着数据是作为CRF 的一部分收集的,并且会有一个相对应的关于变量说明的注释的CRF(aCRF)。Sponsor可能也会在define.xml 的注释部分(Comments)提供额外的说明,以有助于reviewer审阅数据,来源(Origin)为“CRF”,包含预先设定在CRF 上的信息。(例如:MHCAT:“呼吸系统疾病”)。
eDT: 在define.xml 中指定 “eDT” 作为Origin,意味着数据是通过电子数据传输(electronic Data Transfer) (eDT) 获得的,并且通常没有相应的注释。来源为“eDT” 的数据通常是通过数据流收集的(例如:lab实验室、ECG 或IVRS)。Sponsor可能会在define.xml 的注释(Comments)部分提供一些有助于reviewer审阅数据的额外补充信息。
Derived(衍生):衍生的数据不是直接从CRF 上收集的,而是通过某种算法或可重复性规则计算得来的(这些数据是基于其他的数据计算产生的)。这种算法适用于该数据集中所有的记录,也可以引用其他SDTM 数据集中的记录。这些数据衍生规则是由Sponsor规定的。但是这些不适用于直接从实验室(或检查设备)得到的实验室检测结果。以下示例说明收集的数据和衍生数据之间的区别:
• 通过eCRF 系统,从其他录入区域衍生的值的来源为 ”Derived” ,因为Sponsor决定衍生规则。
• 根据Sponsor收集的数据衍生的值,或CRO 代表Sponsor衍生的值,来源为 ”Derived”。
• 由研究者衍生的值,书写或录入在CRF 上的值,来源为“CRF”(附带参考),而不是”Derived”。
• 由供应商(例如:中心实验室)根据他们工作流程衍生的值认为是收集而来的,而不是衍生的,来源为“eDT”。
Assigned(指定):由独立判断(通过评估者,而不是受试者或研究者)决定的值,而不是作为CRF 的一部分收集的,或根据某种算法计算得来的值。这个过程可能包括第三方机构的裁定。编码过程中提供的编码术语(像--DECOD 的值)的来源通常为“Assigned”。为了满足SDTM 规则而单独设定的受试者相关数据的值(例如:DOMAIN、--TESTCD)的来源通常为“Assigned”。
Protocol(方案):作为试验设计准备[see Section 7 – Trial Design Datasets]值得一部分,通常将Origin 定义为“Protocol”。例如:变量VSPOS(生命体征体位)可能只在方案中说明而不会出现在CRF 上。
在以前SDTMIG 版本中,使用术语“Sponsor Defined”,用来说明元数据中的某些数据是Sponsor提供的Origin值。字段“Sponsor Defined” 不会再用于define.xml 中,并且SDTMIG v3.1.2 及以后版本都不会再使用。
4.1.1.8.2 Origin Metadata for Records
Sponsor需要注意:Origin=”Derived”,意味着这个变量所有的值都是衍生的,Origin=”CRF”(包含注释)意味着这个变量所有的值都是收集来的。在一些情况下,收集和衍生可能同时映射到同一个变量。例如:Finding类数据集(如QS 数据集)包含从CRF 中收集的结果,然而像“总分”这样的记录是衍生的值。出现上述情况时,记录值级别(value-level)的元数据Origin将显示为“Derived”或“CRF”,而变量级(variable-level)元数据Origin将列出所有种类的变量,并以逗号分开(如“Derived, CRF”)。
3.4:当derived和collected的值同时映射到同一变量时,Origin就需要用value-level的元数据在define.xml中描述。
标黄部分与实际情况不符,目前define2.0或更新版本已经不支持如"Derived, CRF”两种及以上的Origin,可能老版本支持。
总结:
1.Origin是什么?
Origin是一个定义Define.xml中数据集变量的元数据属性,用来描述变量的来源。
2.如果某变量有value-level元数据定义,那么Origin either value-level or variable-level。
比如VS的CRF收集了HEIGHT和WEIGHT,并延伸了BMI,则variable-level的Origin为空,不可以在variable-level Origin写“Derived, CRF”。而value-level需要填写清楚。
如果value-level都是相同的话,则variable-level需要填充成value-level。
拓展:
如有问题(如上图),欢迎私信,一起讨论交流!微信号:Terhing