“十一五”国家科技支撑计划(2006BAH03B02)
- 作品数:14 被引量:84H指数:5
- 相关作者:章成志王惠临高影繁徐红姣梁勇更多>>
- 相关机构:中国科学技术信息研究所南京理工大学南京大学更多>>
- 发文基金:“十一五”国家科技支撑计划中国博士后科学基金教育部人文社会科学研究基金更多>>
- 相关领域:文化科学自动化与计算机技术经济管理文学更多>>
- 基于主题聚类的学科研究热点及其趋势监测方法被引量:20
- 2010年
- 常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。
- 章成志梁勇
- 关键词:主题聚类主题抽取文本聚类
- 一种基于泊松估计的可控特征选择算法
- 2010年
- 特征选择是文本分类的关键技术之一。本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源。在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值。实验表明本文算法在与相关算法的对比中存在优势。算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试。
- 高影繁王惠临
- 关键词:语义特征率失真理论
- 多语言文本聚类研究综述被引量:4
- 2009年
- 对多语言文本聚类问题进行综述,说明多语言文本聚类的作用、多语言聚类方法的分类、现有方法存在问题以及今后的研究趋势。
- 章成志王惠临
- 关键词:文本挖掘
- 跨语言文本分类技术研究进展被引量:5
- 2010年
- 本文以综述的形式对跨语言文本分类技术目前的发展态势进行了介绍,从应用背景出发,了解跨语言文本分类技术的社会需求;从关键技术出发,了解该项技术的核心问题及解决方案;从已有研究成果得到的结论揭示了该项技术的发展状况,作为一种重要的多语信息组织手段,跨语言文本分类技术发展前景广阔。
- 高影繁王惠临徐红姣
- 关键词:特征提取
- 基于集成学习的自动标引方法研究
- 目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自...
- 章成志
- 关键词:自动标引关键词提取
- 文献传递
- 基于集成学习的自动标引方法研究被引量:5
- 2009年
- 目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。
- 章成志
- 关键词:自动标引关键词提取
- 一种基于组合策略的聚类描述方法及其应用
- 2009年
- 针对DCF聚类描述法存在的问题,提出一种基于组合策略的聚类描述方法,即综合利用"先描述、后聚类"和"先聚类、后描述"的优点,解决聚类描述的可理解性问题。实验结果表明该方法的有效性,将该方法用于搜索结果聚类这一应用中。
- 章成志
- 关键词:DCF文本聚类搜索结果聚类
- 关于建立中国国家科学技术语料库的思考被引量:3
- 2010年
- 论述当前语料库建设的最新发展趋势以及建立我国大规模、国家级科学技术语料库对应用于科技信息领域的自然语言处理技术、知识技术等智能信息技术研究发展的意义和重要性,探讨国家科技语料库的建设目标、设计原则、加工功能、组成结构及其他一些相关问题,目的是推动我国科技语料库的建设,并得到国家有关部门的关注与支持。
- 张东王惠临
- 关键词:自然语言处理
- 基于双向标注融合的汉语最长短语识别方法被引量:9
- 2009年
- 汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于"分歧点"的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.
- 鉴萍宗成庆
- 关键词:分歧点
- 基于可比语料库的双语术语抽取研究述评被引量:6
- 2009年
- 对基于平行语料库的双语术语抽取和基于可比语料库的双语术语抽取进行对比分析,说明基于可比语料库的双语术语抽取的研究意义与应用价值。分析总结解决该问题的主要方法及其优化方法,指出存在的问题并展望该研究的未来发展方向。
- 康小丽章成志王惠临
- 关键词:可比语料库