袁小龙 作品数:25 被引量:48 H指数:6 供职机构: 中国科学院过程工程研究所 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 理学 自动化与计算机技术 化学工程 文化科学 更多>>
化学信息门户ChIN十年回顾 被引量:3 2007年 中国科学院过程工程所(原化工冶金所)自1997年开始建立和维护的Internet化学化工资源导航系统ChIN,目前作为国家科学数字图书馆:化学学科信息门户运行,它是一个集Internet化学资源的发现、收集、分类、描述,门户网站导航系统的生成和向Web发布、用户集成交流环境等功能较为完善的化学化工门户系统。ChIN已经在Internet上连续不间断地运行了约10年时间。目前与国际上知名的同类系统如ChemDex、Links for Chemists等相比,无论从索引的资源总量、内容质量、还是系统的整体性能上。ChIN都毫不逊色。本文回顾了ChIN在这10年中工具与版本的发展、运行的概况、及被访问的情况等。 李晓霞 袁小龙 聂锋光 郭力关键词:INTERNET Internet推动的化学信息学重要进展 被引量:4 2008年 Internet的普及为专业人员获取数据信息、利用计算工具提供了统一的平台,由此为化学信息学的发展带来了新的空间,推动了化学信息学以网络为基础,以化学相关的数据、信息及计算资源共享为目标的快速发展。本文将从不同侧面回顾近10年来化学信息学的重要进展,包括:(1)网络化学信息检索:索引对象从化学浅层网向化学深层网发展;检索工具从web化学信息资源导航向化学专业搜索引擎(包括文本信息和化合物标识信息)、及化学深层网检索引擎(化合物物性数据提取)发展;索引粒度从web站点向页面、乃至页面中的特定内容发展,一般页面特定内容的数据提取(即非结构化数据提取)是未来发展的方向。(2)可共享的化学数据库:从可免费访问和使用的化学数据库向数据库内容通过集成多来源数据(包括数据库拥有者主动收集、多来源数据主动提交达到共享的方式,repository)实现数据库内容免费下载和共享,以及不同数据库之间的相关内容实现无缝连接的方向发展(如NIH建成的药物小分子共享数据库PubChem)。(3)开源(open source)化学软件工具包:从化学结构基本处理模块如CDKJ、OELib向集成开发环境如化学信息学与生物信息学集成环境Bioclipse发展。(4)与化合物及其数据共享相关的推荐标准:包括用于共享数据交换的化学标记语言CMLI、UPAC推荐的学术论文相关热力学实验数据提交标准ThermoML及化合物结构唯一描述码InChI。(5)计算化学资源共享及基于网格的应用:从可执行程序的下载向在线计算、基于网格的应用发展。(6)eChemistry和虚拟研究环境:网络也成为化学相关日常的科学活动中不可缺少的平台。构建以网络为平台、支持开展科研活动的数字化基础设施和服务的eChemistry探索开始出现,根据需要自主集成多来源数据和计算资源,形成不同层次的支持协同工作的虚拟研� 李晓霞 郭力 袁小龙 夏诏杰 聂峰光关键词:化学信息学 REPOSITORY 虚拟研究环境 利用ChemDB Portal检索化学深层网 <正>Internet的普及为专业人员获取数据信息、利用计算工具提供了统一的平台,检索网络化学信息资源的工具也从化学浅层网向化学深层网发展。中国科学院过程工程研究所高性能计算与 李晓霞 袁小龙 夏诏杰 井银铃 聂峰光 唐武成 郭力关键词:化学数据库 搜索引擎 化学信息学 文献传递 基于XML的化学深层网数据提取模板生成工具 分布在 Internet 上的化学数据库是宝贵的化学信息资源,化学深层网是这类数据库的集合,化学深层网检索的目标是利用一个查询,实现多个化学数据库数据的同时检索和数据集成。基于 XML 的化学深层网数据提取方法是通过构造... 卓流艺 李晓霞 袁小龙 郭力关键词:XML 化学数据库 文献传递 基于XML的半结构化化学信息提取系统的重构与优化 ChemDB Portal 系统是基于 XML 技术面向多个远程化学数据库的半结构化数据采集引擎。该系统通过单一检索入口同对多个远程化学数据库发送针对不同数据库构造的查询请求,并将返回的包含半结构化数据的页面分别转化为结... 袁小龙 刘增才 李晓霞 郭力文献传递 反应分子动力学(ReaxFF MD)模拟结果分析工具VARxMD 被引量:9 2014年 反应分子动力学(ReaxFF MD)是一种很有潜力研究较大体系(>1000个原子)复杂化学反应的方法.国际上现有的ReaxFFMD模拟结果分析工具无法让用户了解所模拟的过程中发生的化学反应细节,对于规模小或简单的反应体系进行人工分析还可以接受,但对于原子规模达到~1000-~10000的大体系模拟,反应分析功能的缺乏,将使研究者对反应机理的分析陷入困境.本文研发的反应分子动力学分析与可视化工具VARxMD(Visualization and Analysis of ReaxFF Molecular Dynamics),它是国际上第一个实现对ReaxFF MD模拟轨迹进行化学反应自动分析的工具.VARxMD是基于Qt/VTK和其它第三方库研发的跨平台图形用户界面程序,借助化学信息学的化学结构处理方法,对ReaxFF MD模拟结果轨迹中的原子、物种、成断键的分析,并结合数据可视化和分子片段结构可视化,实现对ReaxFF MD模拟结果的深度分析,可获得模拟过程中完整的化学反应信息.VARxMD已应用于煤热解和聚乙烯等复杂分子体系热解的化学反应机理探索,且VARxMD具有通用性,有望被应用于更多的体系. 刘健 李晓霞 郭力 郑默 韩君易 袁小龙 聂峰光 刘晓龙关键词:化学反应机理 化学信息学 Internet上多来源MSDS的统一检索方法 被引量:8 2009年 国际上称之为材料安全数据表的MSDS是一份关于化合物安全信息的综合性法律文件。随着人们安全意识的提高以及对职业健康、环境保护等认识的不断深入,MSDS作为一个安全信息文件越来越受重视。由于制作MSDS需要一定的成本,充分利用网络上免费的MSDS数据对于了解化合物的安全信息具有重要的参考价值。已有针对MSDS的搜索工具,一般只能检索单一来源的MSDS数据库,所以建立一个能通过一个查询同时检索多个来源数据库的MSDS搜索引擎,将为使用MSDS的人员提供极大方便。本文提出建立MSDS统一搜索引擎的框架,通过链接分析技术和深层网数据检索技术获取MSDS文件,然后缓存各数据源检索结果,并建立化合物索引以提高MSDS搜索引擎的响应速度。其实现过程包括发现与自动构造检索式模式、自动获取检索结果页面、利用数据提取的方法获取化合物标识信息以建立MSDS的化合物索引等多个方面,为建立一个可用的MSDS统一搜索引擎奠定坚实基础。 李海波 李晓霞 袁小龙 郭力关键词:MSDS 搜索引擎 数据提取 深层网技术在专利数据提取中的应用 被引量:1 2011年 深层网技术是获取隐藏在以表单为特征的网络数据库检索入口后的数据页面的提取技术,解决了通用搜索引擎不能有效索引深层网网页的问题。专利数据是一类重要的深层网数据资源,对其进行提取、挖掘具有重要意义。本文利用深层网技术开发了一个专利检索系统,实现了对中国和美国专利数据的本地检索、提取和下载,以及针对中国专利的法律状态检索。该软件支持专利的批量下载及文件管理,并根据中国和美国专利显示为多个单页TIFF格式图片不利于本地管理和浏览的特点,开发了实用性较强的TIFF格式图片多页合并和通用PDF格式转换功能。该专利检索系统采用面向用户的界面设计和功能开发,具有简单、易用的特点。 袁小龙 李晓霞 郭力关键词:批量下载 GPU桌面机上的大规模分子动力学高性能计算 李晓霞 郑默 刘忠亮 陶晓芳 刘健 袁小龙 聂峰光 郭力关键词:GPU 大规模化合物子结构检索的并行实现与优化 被引量:7 2010年 化合物的子结构检索在计算机辅助药物设计、波普学、化学数据库等领域是不可或缺的工具。然而由于子结构检索是一个NP完备性的问题,获得用户可接受的平均检索时间一直是研究人员十分关注的问题,其方法主要有改进算法和提升硬件条件2个方面。当化学结构数据库的规模达到百万乃至千万级别时,尽管改进算法的方式能够获得一定的检索效率提升,但其提升的空间有限,因而,集群并行方式是大规模化合物子结构检索应用的必然选择。本文以ChemDB Portal的化学子结构检索系统为基础,实现了基于集群并行的化学子结构检索系统,并进行了任务均分、多线程并行等优化。在包含800万个化合物结构的化学结构数据库中,利用5个节点的小型集群,选取10个较为典型的提问结构进行子结构检索测试。测试结果为基于集群的化学子结构检索的平均检索时间由初始单节点时的34.1 min降低为2.75 min,检索效率平均提高12.4倍,表明在大规模乃至超大规模的数据条件下,集群并行化方式能够显著地提高子结构检索系统的执行效率。 井银玲 李晓霞 袁小龙 郭力关键词:集群并行 化学数据库 化学信息学