什么是Define.XML?《FDA数据标准目录》中详述了SDTM,SEND,ADaM,Define-XML以及Controlled Terminology等标准被指定用于药物注册申报递交的数据标准。简单讲,Define.XML是一种数据标准格式。这种格式有什么特点呢?
XML指可扩展标记语言( EXtensible Markup Language)
XML被设计用来结构化、存储以及传输信息,而非显示数据
XML数据以纯文本格式进行存储,因此提供了一种独立于软件和硬件的数据存储方法
XML可以通过各种不兼容的应用程序来轻松交换数据数据
在不损失数据不中断应用程序的情况下,XML更容易扩展或升级到新的操作系统、新应用程序或新的浏览器
由于XML独立于硬件、软件以及应用程序XML使您的数据更可用,也更有用。几乎所有的主流浏览器均支持XML和XSLT
XML是W3C的推荐标准
XML这一文件格式特点,可以满足临床试验对数据递交的一些期望:
机器可读
中立的平台
不要依赖于系统或供应商
完整的阐释临床试验
标准化的数据传输、交换和使用
符合监管要求的数据递交/存档
便捷的端对端的CDISC实施
与电子健康记录的整合
......
XML文档形成了一种树结构,它从“根部”开始然后扩展到“枝叶”。根元素必须包含,是所有其他元素的父元素。XML文档中的元素形成了一棵文档树。这棵树从根部开始,并扩展到树的最底端。所有元素均可拥有子元素。
这是Define.XML的一些介绍。下面我来谈一下,我生成Define.XML过程中遇到的一些问题。不同的公司、机构使用的工具肯定会不太一样,这里的问题仅供参考。整个制作流程分为四大块:相关文件的准备、ADePT文件的生成、Define文件的生成、进行验证。
相关文件的准备
相关文件包括:SDTM/ADaM数据集、SDTM/ADaM Specifications、Annotated CRF。这些文件都需要按照CDISC标准进行设计,整体框架一般没问题。主要问题是一些Spec信息太过简略,导致在生成ADeP文件时发生ERROR。为避免这个问题,可以在生成ADeP之前就把Spec文中信息补全,保证材料的完整性,这是最稳妥的方法;其次,也可以在生成的ADept文件中进行修改,将Spec缺失的信息,补充到ADeP中。
ADeP文件的生成
这一过程的顺利与否,取决于操作者是否遵循程序的操作流程。新手最好多观看相关的Help文档和教学视频,避免步骤性出错。在生成ADeP过程中,程序会对issue进行高亮提示,辅助修改Spec或ADeP文件。
Define文件的生成
这一部分也是步骤性操作,生成文件之后要仔细查看文件,可能出现的问题有
- 数据集中Controlled Terms or Format列缺失(Spec中Outformat列的信息未填写)
- Controlled Terms or Format列引用未显示Label名(Codelist页cl_name列是变量名非Label名)
- Derivation/Comment列内容过多(将内容保存到PDF中,使用超链接观看)
- Codelist中的按名称排序可能无逻辑顺序(需要在Adept文件中进行手动调整)
- ......
进行验证
我们公司是用Pinnacle 21软件进行验证。在软件界面,确定好相关版本,导入XPT和define文件开始验证。验证报告结果以Excel格式输出。报告文件中总共有四张表单:Dataset Summary、Issue Summary、Details、Rules。四张表单依次查看,确定issue的位置以及解决方法。
文章前半部分关于Define文件的论述,参考微信公众号:好数据《220 数据•标准 Define.XML 和dataset.xml 的基本介绍》;后半部分是自己的生成Define的一些认识。
----2019年3月17日