4-4、化学数据信息网络化集成检索平台的建立方法

4-4、化学数据信息网络化集成检索平台的建立方法

李晓霞1, 2*,郭力1, 2,夏诏杰1,陶晓芳1

1.中国科学院过程工程研究所多相复杂系统国家重点实验室 北京 100190

2.中国科学院大学化学化工学院,北京 100049

摘要:物质种类 (> 1300万种)及其性质的多样性,已使数量巨大的化学数据信息积累和获取成为化学化工、材料、环境、农业、生物医药等相关学科研究的基础。由于专业性强和商业价值有限,帮助获取高质量的化学数据信息的平台并不为通用数据信息提供商所重视,主要由本领域的科研人员建立。我们研究建立了化学数据信息集成检索平台,包括:(1) 网络化学化工信息资源导航系统ChIN;(2) 网络化学化工信息资源搜索引擎ChemEngine;(3) 化学深层网搜索引擎ChemDB Portal。所形成的建立专业数据信息平台的一整套方法,可以应用于材料数据相关平台的建立。

表1化学数据信息网络化集成检索平台建立方法及成果

工具名称

化学化工资源导航

ChIN

化学化工搜索引擎

ChemEngine

化学深层网搜索引擎

ChemDB Portal

对象

Web站点/页面

Web页面

化学化工数据库

获取方法

本质

链接分析+信息源+领域知识

链接分析+化学领域知识

数据深层结构分析
+领域知识

方法特点

人工参与信息资源发现、描述、组织

机器学习:化学主题信息自动获取

自动完成查询提交、数据提取、集成

主要方法

技术

DBMS+Web交互

化学文本自动分类+ 隐含语义检索

Java+XML

自建专门工具及其构成

ChIN-Manager(资源描述与自动发布)

爬行器、索引器、分类器、检索系统

查询构造、数据提取模板生成+数据映射

系统规模

> 10850站点/页面

> 1000万页

8个化学数据库

应用/访问

方式

Web浏览器

Web浏览器

Web浏览器+计算程序

创新点

以简介页为中心的信息资源组织方法

导航结构扩展为树+网状

建立化学化工搜索引擎的方法

同类系统的算法均未发表

基于XML的方法

多来源化学数据库统一检索和目标数据的自动提取

影响力

整体性能优于国际同类系统

ISI Current Web Contents收录的唯一中国化学站点

>3亿次访问请求

原型系统

性能优于同类系统

原型系统

未见同类系统

 

 

关键词:化学数据库;文本自动分类;机器学习;数据自动提取;化学结构检索)

通讯作者:李晓霞,Email: xxia@ipe.ac.cn

DOI:10.12110/secondfmge.20181014.404

Brief Introduction of Speaker
李晓霞

李晓霞,中国科学院过程工程所研究员。1985年清华大学化工系学士,1988年中国科学院化工冶金所硕士。曾从事化学数据库、化学数据信息集成检索平台的工作,所建立的平台系统被专业人员广泛使用。近年来创建了大规模反应分子动力学模拟新平台,应用于复杂反应机理揭示。获中科院和北京市科技进步奖3项。发表论文50余篇,专著3部。在中国化学会计算机化学专业委员会、CODATA中国委员会等4个学术组织任职。