中国博士后科学基金(20080430463)
- 作品数:6 被引量:38H指数:4
- 相关作者:章成志王惠临梁勇康小丽更多>>
- 相关机构:中国科学技术信息研究所南京理工大学南京大学更多>>
- 发文基金:中国博士后科学基金“十一五”国家科技支撑计划教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 文本聚类结果描述研究综述被引量:4
- 2009年
- 首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。
- 章成志
- 关键词:文本聚类文本挖掘
- 基于主题聚类的学科研究热点及其趋势监测方法被引量:20
- 2010年
- 常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。
- 章成志梁勇
- 关键词:主题聚类主题抽取文本聚类
- 多语言文本聚类研究综述被引量:4
- 2009年
- 对多语言文本聚类问题进行综述,说明多语言文本聚类的作用、多语言聚类方法的分类、现有方法存在问题以及今后的研究趋势。
- 章成志王惠临
- 关键词:文本挖掘
- 一种基于组合策略的聚类描述方法及其应用
- 2009年
- 针对DCF聚类描述法存在的问题,提出一种基于组合策略的聚类描述方法,即综合利用"先描述、后聚类"和"先聚类、后描述"的优点,解决聚类描述的可理解性问题。实验结果表明该方法的有效性,将该方法用于搜索结果聚类这一应用中。
- 章成志
- 关键词:DCF文本聚类搜索结果聚类
- 基于集成学习的自动标引方法研究
- 目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自...
- 章成志
- 关键词:自动标引关键词提取
- 文献传递
- 基于集成学习的自动标引方法研究被引量:5
- 2009年
- 目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。
- 章成志
- 关键词:自动标引关键词提取
- 基于可比语料库的双语术语抽取研究述评被引量:6
- 2009年
- 对基于平行语料库的双语术语抽取和基于可比语料库的双语术语抽取进行对比分析,说明基于可比语料库的双语术语抽取的研究意义与应用价值。分析总结解决该问题的主要方法及其优化方法,指出存在的问题并展望该研究的未来发展方向。
- 康小丽章成志王惠临
- 关键词:可比语料库