4-1、材料基因工程数据库应包含哪些内容

4-1、材料基因工程数据库应包含哪些内容

汪洪

上海交通大学材料基因组联合研究中心/材料科学与工程学院,上海200240

摘要:材料基因工程的工作模式,可大致总结为实验驱动、计算驱动和数据驱动3种。以“数据+人工智能”为标志的数据驱动模式代表了材料基因工程的核心理念与发展方向。材料基因工程数据除了体量大外,还应保证数据具有高度完整性、系统性、一致性和多参量综合性。在理想条件下,这些数据可产生于一个集中建立或虚拟链接的平台,或可称之为“数据工厂”。如实验“数据工厂”可以是基于大科学平台的大规模系统性的高通量综合制备与表征平台,或集成原位制备和多参数表征手段为一体的实验设施,流水线般标准化地批量产生数据[1]。数据库是材料基因工程要素之一,需要收录符合FAIR原则的数据资源[2],即“可发现(Findable)”,为数据/元数据建立公共标识,易于被第三方(人员与机器)方便地找到; “可获取(Accessible)”,可使用标准通讯协议查询、获取; “可互操作(Interoperable)”,数据及其元数据使用正式、通行术语表达; “可再利用(Reusable)”,数据及其元数据由多种准确并相关的特征与出处信息所描述,方便人/机多次利用。

数据,特别是源数据(即由测量或计算获得的未经进一步分析的数据)的可再利用性是材料基因工程的重要特征。以某一合金的X光衍射谱为例,它可用于获得材料的晶体结构,也可用于分析合金掺杂的成分,还可用于分析结晶程度、晶粒大小、晶体取向等参数。因此一组源数据在不同的使用者手中,可以根据各自关切产出不同的结果。传统材料数据库一般仅收集由源数据处理而得到的分析结果(如各种材料性能参数等),而源数据本身通常分散在实验者手中,不被收录。同时,与数据相关的元数据通常也不在收录之列,因此难以满足FAIR原则,不利于数据的共享与充分利用。有必要建立一种适合材料基因工程需求的数据模型,规范数据产生过程中必须收集的信息与遵循的格式,有利于今后对数据的充分有效利用。

针对上述需求,本文提出一种材料基因工程数据构造方案。它将数据分为样品、源数据(未经处理的数据)与分析数据(经分析处理得到的数据)三个层面,以动作(样品/表征/数据处理)为根目录,对每次动作分别赋予独立资源标识(DOI或根据国标GB/T 32843-2016)。每条数据中收集与样品制备、测量或数据处理相关的元数据,同时收录每次测量产生的原始数据。这里,样品可以是实验产生的实物,也可以是经计算产生的虚拟物。同理,表征或是直接的测量,也可以是通过模拟计算产生的材料参数。具体有[3]:

样品信息(实际vs虚拟)

  • < >-材料名称、相关样品来源(包括标识)制备方法、工艺条件、设备、等等< >-材料名称、相关样品来源(包括标识)产生样品的计算方法、条件、等等< >DOI)表征/测量/计算生成的原始数据

     

     

     

  • < >-样品来源(包括标识)、表征方法、测量条件、其他说明< >-样品来源(包括标识)、计算实验的方法、条件、其他说明< >-数值、表格、曲线、图形< >-数值、表格、曲线、图形< >DOI)经分析处理的数据

     

  • < >-被分析数据来源(包括标识)、处理方法、条件、其他说明< >-数值、表格、曲线、图形、关系式,等等< >DOI)由于收录了足够元数据与原始数据,该方案兼顾了材料数据通用性与专用性。单个数据条目各自拥有科技资源标识,独立存在,保证了最大通用性。在使用中,每次分析使用的数据或数据集通过检索随时建立,这就要求建立规范化的标准词汇表,易于检索。同时,对于特定的制备、表征、计算流程也需要建立数据与元数据的格式标准,简化数据存储、分析中的资源消耗,特别是看来繁琐的元数据录入可以通过高通量制备、表征、计算在操作过程中自动生成,这对于收集与处理批量产生的数据是必不可少的。

     

    关键词:数据库,数据格式,高通量实验,高通量计算,数据工厂

    参考文献

    [1] 汪洪、项晓东、张澜庭,数据+人工智能是材料基因工程的核心,科技导报,38(14),15-21,2018

    [2] Wilkinson M D, Dumontier M, Aalbersberg I J, et al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Scientific Data, 2016, 3: 160018

    [3] 中国专利申请号:201801763903.3

  •  

     

    DOI:10.12110/secondfmge.20181014.401

Brief Introduction of Speaker
汪洪

汪洪,国家“千人计划”特聘专家,上海交通大学材料基因组联合研究中心主任,“致远”讲席教授。获美国伊利诺伊大学材料科学与工程博士,曾在美国任职于SONY、松下、Guardian Industries等跨国公司,研究薄膜材料及其在半导体、平面显示与建筑节能中的应用。2010年起回国中国建筑材料科学研究总院担任绿色建筑材料国家重点实验室副主任,国家玻璃深加工工程技术研究中心首席科学家,开展建筑节能镀膜玻璃与太阳能光热材料及产业化技术研发。曾担任中国工程院、中国科学院材料基因组重点咨询项目专家。当前研究集中在材料基因工程理论,高通量材料制备与表征技术及机器学习在材料中的应用。

联系方式:hongwang2@sjtu.edu.cn