4-8、材料数据规范化与数据版权保护

4-8、材料数据规范化与数据版权保护

Materials Data Specification and Data Copyright Protection

钱权*,李朋飞,丁广太,张瑞

上海大学计算机工程与科学学院,上海大学材料基因组工程研究院

摘要:

1、引言

材料数据是材料基因组工程中的重要组成部分。尽管国外已经建立了各类材料数据库[1],但由于材料数据的共享牵涉到数据的知识产权问题,即便有一些免费可共享的数据库,由于数据的格式和表达上缺少统一规范,在技术层面上进行数据的集成和融合,也存在一定的技术难度,因此材料数据的规范化和数据的版权保护是两个非常重要的问题。

首先,材料数据存在来源多(实验数据、计算数据、生产数据、文献数据等)、类型异(结构化、半结构化、非结构化数据)、列多变(不同材料数据维度不固定)、高维度(相比数据的深度,数据宽度大得多)、小样本(高质量实验数据,通常数据量都很小)、稀疏性(维度高而样本量小,在高维空间中样本非常稀疏)、含噪声(实验或计算引入的数据噪声)以及数据间关系复杂(成分-工艺-结构-性能间数据关系复杂)等特点,因此材料数据的规范化是首要解决的问题。

其次,数据的版权问题阻碍了包括材料数据在内各领域的数据共享。目前大多采用的数字对象唯一标识符DOI(Digital Object Identifier)[2]为推进材料数据共享迈出了重要一步。然而,在材料数据中引入DOI作为数据唯一和永久性的逻辑标识符,对于标识数据起到一定作用,然而要想真正实现材料数据的“数据交换”和“价值交换”,DOI来远远不够。

2、主要研究内容与研究方法

2.1 基于XSD的材料数据规范化表示

如上所述,材料数据存在自身的特异性,建立材料数据的规范化表示方法,是材料数据存储、数据共享和数据交互的前提和基础。材料数据的规范化表示方法,要求具有:形式化、无歧义、可扩展、灵活性、语义性、自解释、易用性和可视化等特点,且由于材料数据纷繁复杂,规范化表示面临挑战且十分迫切。

2.2 基于区块链的材料数据版权保护

DOI可以对数据版权进行标注,但从技术手段上,区块链技术可以为材料数据的版权保护,提供完整的技术实施框架。具体包括:(1)数据版权注册:权威机构签发“可信时间戳”,将时间戳、作者信息、数据内容等元数据一起打包存储到区块链上,且可以从多节点进入。(2)数据版权确认:所有涉及数据版权的使用和交易等,区块链可以记录下使用和交易的痕迹,并可以追溯到全过程的版权痕迹。(3)数据版权验证:使用大量密码学技术,如哈希数字指纹、私钥数字签名、公钥签名验证以及分布式检索等。(4)数据价值交换:通过智能合约及数据定价、数据交易实现数据的价值交换。

 

3、研究结果与讨论

材料数据的规范化。采用BNF(Backus-Naur Form)范式结合XSD(XML Schema Definition)对材料数据中的实验数据、计算数据及生产数据进行形式化建模和描述。在系统实现上与美国国家标准局(NIST)深度合作开发材料数据归档系统MDCS/CDCS[3],见图1和图2。

 

图1:NIST MDCS/CDCS与MGI数据库集成

 

图2:数据定义到数据发布全流程

基于区块链的数据版权保护。在传统数据DOI(Digital Object Identifier)基础上,采用区块链技术初步实现了材料数据的版权保护(系统运行截图如图3所示)。系统采用以太坊作为底层架构,具有数据版权的注册、验证、数据的加密、数据版权交易,区块链系统与云存储系统的融合,以及采用智能合约自动完成数据版权在不同用户间的流转。

 

 

 

 

 

 

图3:基于区块链的材料数据版权保护系统

4、结论及展望

即使有了材料数据的规范化表示及数据版权保护手段,但真正解决材料数据的积累和共享问题,为材料数据库源源不断的“输血”,文献数据和数据交易是两个非常重要的手段,可有望形成可持续发展的材料数据库。

首先,材料文献数据非常丰富,包含材料科学相关的科研论文、专利、质量标准与体系、研究报告以及技术文档等,其中包括了大量的材料领域的显性及隐性知识。通过OCR(Optical Character Recognition),进行文本抽取,借助材料学领域词典和自然语言理解中的词法分析、句法分析等文本数据挖掘技术,从海量的材料文献数据中获取材料数据,是未来重要的研究方向。

其次,大数据时代,数据成为数字经济的关键生产要素,数据产业发展的核心在于数据自由流通。材料数据库要实现可持续发展,数据交易是未来的重要途径。而数据交易中的产权问题是前提,其核心是数据的所有权归属问题。因此,明晰数据交易中的版权问题迫在眉睫。此外,数据交易规则也需要顶层设计。然而由于我国数据交易产业尚属于起步阶段,数据交易平台设计、数据定价和交易模式、运营体系、交易准入机制等一系列的必要环节,在国际上尚无先例可循,只能立足于现实,根据我国基本国情进行自主创新,制定具有中国特色的数据交易规则。

关键词:数据规范化表示、数据存储、数据集成、版权保护

通讯作者:钱权,电话:021-66135396,Email: qqian@shu.edu.cn

参考文献:

  1. J. Hill, G. Mulholland, K. A. Persson, B. Meredig. Materials science with large-scale data and informatics: Unlocking new opportunities. MRS Bulletin. 41(05):399-409, 2016.

  2. B. Rosenblatt. The Digital Object Identifier: Solving the Dilemma of Copyright Protection Online. The Journal of Electronic Publishing, 3(2), 1997. In http://dx.doi.org/10.3998/3336451.0003.204

  3. Materials Data Curation System, in https://mgi.nist.gov/materials-data-curation-system.

DOI:10.12110/secondfmge.20181014.408