4-4、化学数据信息网络化集成检索平台的建立方法
李晓霞1, 2*,郭力1, 2,夏诏杰1,陶晓芳1
1.中国科学院过程工程研究所多相复杂系统国家重点实验室 北京 100190
2.中国科学院大学化学化工学院,北京 100049
摘要:物质种类 (> 1300万种)及其性质的多样性,已使数量巨大的化学数据信息积累和获取成为化学化工、材料、环境、农业、生物医药等相关学科研究的基础。由于专业性强和商业价值有限,帮助获取高质量的化学数据信息的平台并不为通用数据信息提供商所重视,主要由本领域的科研人员建立。我们研究建立了化学数据信息集成检索平台,包括:(1) 网络化学化工信息资源导航系统ChIN;(2) 网络化学化工信息资源搜索引擎ChemEngine;(3) 化学深层网搜索引擎ChemDB Portal。所形成的建立专业数据信息平台的一整套方法,可以应用于材料数据相关平台的建立。
表1化学数据信息网络化集成检索平台建立方法及成果
工具名称 | 化学化工资源导航 ChIN | 化学化工搜索引擎 ChemEngine | 化学深层网搜索引擎 ChemDB Portal |
对象 | Web站点/页面 | Web页面 | 化学化工数据库 |
获取方法 本质 | 链接分析+信息源+领域知识 | 链接分析+化学领域知识 | 数据深层结构分析 |
方法特点 | 人工参与信息资源发现、描述、组织 | 机器学习:化学主题信息自动获取 | 自动完成查询提交、数据提取、集成 |
主要方法 技术 | DBMS+Web交互 | 化学文本自动分类+ 隐含语义检索 | Java+XML |
自建专门工具及其构成 | ChIN-Manager(资源描述与自动发布) | 爬行器、索引器、分类器、检索系统 | 查询构造、数据提取模板生成+数据映射 |
系统规模 | > 10850站点/页面 | > 1000万页 | 8个化学数据库 |
应用/访问 方式 | Web浏览器 | Web浏览器 | Web浏览器+计算程序 |
创新点 | 以简介页为中心的信息资源组织方法 导航结构扩展为树+网状 | 建立化学化工搜索引擎的方法 同类系统的算法均未发表 | 基于XML的方法 多来源化学数据库统一检索和目标数据的自动提取 |
影响力 | 整体性能优于国际同类系统 ISI Current Web Contents收录的唯一中国化学站点 >3亿次访问请求 | 原型系统 性能优于同类系统 | 原型系统 未见同类系统 |
关键词:化学数据库;文本自动分类;机器学习;数据自动提取;化学结构检索)
通讯作者:李晓霞,Email: xxia@ipe.ac.cn
DOI:10.12110/secondfmge.20181014.404
李晓霞,中国科学院过程工程所研究员。1985年清华大学化工系学士,1988年中国科学院化工冶金所硕士。曾从事化学数据库、化学数据信息集成检索平台的工作,所建立的平台系统被专业人员广泛使用。近年来创建了大规模反应分子动力学模拟新平台,应用于复杂反应机理揭示。获中科院和北京市科技进步奖3项。发表论文50余篇,专著3部。在中国化学会计算机化学专业委员会、CODATA中国委员会等4个学术组织任职。