自然语言处理技术在材料研发中的应用探索

姜雪 , 王伟仁, 田少哈,Turab Lookman, 宿彦京 , 谢建新

北京材料瞎因工程高精尖创新中心, 北京科技大学, 北京, 100083 ,中国

详细摘要:科技文献爆炸式增长的同时围积了大星珍贵的知识和数据, 自然语言处理技术作为开启这一宝藏的秘钥, 可为数据驱动的新材料研发提供源源不断的动力。 通过文本分类、 命名实体识别、 关系抽取等任务,可高效提取材料成分、 制备加工工艺和性能等关键信息;基于预训练语言模型, 将材料研究
对象编码为信息稠密的词嵌入, 借助语义文本相似性, 有望加速发现具有相似性能的新材料。 鉴于此, 我们研发出了材料文献数据自动抽取流水线技术, 包括文献获取、 预处理、 表格解析、 文本分类、 命名实体识别、 关系抽取、 依赖关系解析等, 可实现合金成分、 工艺路线和性能的自动提取, 形成机器学习可用的大规模高质量数据集。 特别的,针对合金制备加工工艺复杂多样的特点, 我们提出了基于半监督策略的材料制备工艺词典生成方法, 用于准确识别材料工艺文本中的动作序列。 近年来, 以BERT、 GPT为代表的大模型正在变革自然语言处理技术, 通过在海量无标记语料上预训练, 并针对特定任务进行微调的方式, 可让模型在自然语言层次上有更强的理解力, 同时在特定任务上更加专注。 我们基于约四百万篇材料科技文献摘要和9万篇钢铁文全文语料, 成功训练了钢铁领域的预训练语言模型SteelBERT, 其在钢铁领域的文本分类、 化学元素和工艺动作编码等多个任务上表现优异, 为大模型在解决具体材料设计问题上提供了思路。

关键词:材料文本挖掘;机器学习;合金制备
参考文献:
[l] W. Wang, X. Jiang, S.Tian, P. Liu, T. Lookman, Y. Su, J. Xie. Npj Computational Materials, 2023, 9: 183.[2] W. Wang, X. Jiang, T. Lookman, Y. Su, J. Xie. Npj Computational Materials, 2022, 8: 9.


Brief Introduction of Speaker
姜雪

姜雪, 工学博士, 副教授。 2011年和 2014年获得北京师范大学计算机学士和硕士学位, 2020年获得北京科技大学材料科学与工程博士学位。 现任职于北京科技大学。 长期从事机器学习和文本挖掘辅助材料设计和材料数据库研究。 主持国家自然科学基金青年项目, 参与国家重点研发计划课题、 国家自然科学基金联合重点项目、 国家863计划课题、 北京市科技支撑计划课题、广东省重点研发计划课题, 以及多项企业合作课题。 在npj Comput. Mater.、 Scripta Mater.、 npj Mater. Degrad.、 ACS Appl. Mater. Interfaces等期刊发表文章 30 余篇, 参编论著 2 部, 获专利8项。