国家自然科学基金(60673040)
- 作品数:8 被引量:55H指数:3
- 相关作者:何婷婷戴文华焦翠珍张勇胡文敏更多>>
- 相关机构:华中师范大学咸宁学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术理学天文地球更多>>
- 一种基于锚文本的并行检索策略被引量:2
- 2008年
- 进行Web信息检索时,页面中的锚文本与正文存在较大相关性,多数检索系统忽视了锚文本对页面正文的贡献。该文提出一种提高检索精度的方法,为文档集建立一个基于页面正文的索引和一个基于锚文本的索引,对其采取并行检索策略。实验结果表明,该方法可以有效处理特定结构的网页集。
- 高珊何婷婷胡文敏
- 关键词:锚文本信息检索
- 基于卡方检验的汉语术语抽取被引量:15
- 2007年
- 发现术语在中文信息处理和语言学习方面具有非常重要的作用和意义。提出了一种基于卡方检验的汉语术语抽取方法:先从网络上下载语料,然后使用改进的互信息参数(F-M I)抽取结构简单的质串,并在其基础上进一步使用卡方检验结合质子串分解方法抽取具有复杂结构的合串。实验结果显示,该算法有效地提高了汉语术语抽取的精确度。
- 胡文敏何婷婷张勇
- 关键词:卡方检验互信息
- 一种面向查询的多文档文摘句选择策略
- 针对面向查询的多文档自动文摘,本文提出了一种多特征融合的文摘句选择策略。首先通过计算句子与查询在语义层面上的相似度,获取句子与查询的关联特征,然后运用构建的语义网络图挖掘句子的全局关联特征, 并综合句子的这两方面特征,对...
- 邵伟何婷婷胡珀肖华松
- 关键词:面向查询多文档自动文摘
- 文献传递
- 基于全切分获取网络流行语方法研究被引量:3
- 2009年
- 利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。
- 吴保珍何婷婷李立张勇张勇
- 关键词:中文信息处理全切分
- 基于小生境混合遗传算法的文本特征词聚类研究
- 2008年
- 提出一种基于小生境混合遗传算法的文本特征词聚类方法。该方法首先采用贝叶斯语义模型对语料库进行统计分析,并以K-L距离度量特征词间的距离,然后将小生境遗传算法与K-Means算法相结合,对文本特征词进行聚类,为文本特征词聚类提供了较高的效率和精确度。实验表明该方法是一种高效可行的文本特征词聚类方法。
- 戴文华何婷婷焦翠珍
- 关键词:小生境遗传算法K-MEANS聚类
- 基于遗传算法的自适应文本模糊聚类研究被引量:2
- 2008年
- 针对FCM聚类算法对初始聚类中心的选择敏感,以及聚类数C难以确定的问题,提出一种基于遗传算法的自适应文本模糊聚类方法。该方法首先将文档集合表示成向量空间模型,并采用一种新型的可变长染色体编码方案,随机选择文本向量作为初始聚类中心形成染色体,然后结合FCM算法的高效性和遗传算法的全局优化能力,通过遗传进化,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果。实验表明该算法是一种精确高效的文本聚类方法。
- 戴文华焦翠珍何婷婷
- 关键词:遗传算法FCM聚类文本聚类模糊聚类
- 热点事件发现
- 每年都会有一些机构通过媒体发布当年的热点事件,这些事件通常都是由人工进行筛选。本文提出一种方法来自动地发现热点事件。使用从新闻网站上下载下来的2006年的网页内容,通过增量聚类得到每月的临时事件。再将各个月临时事件列表里...
- 龚海军何婷婷瞿国忠张勇胡文敏
- 关键词:增量聚类
- 文献传递
- 一种改进K-means聚类算法在多文档文摘中的应用
- 本文采用一种改进的 K-means 聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克服传统的 K-means 算法需要靠人的主观经验确...
- 肖华松何婷婷邵伟胡珀
- 关键词:多文档自动文摘
- 文献传递
- 基于文档扩展的中文信息检索系统
- 本文介绍了我们参加国际信息检索比赛 NTCIR 中所使用的方法。我们首先利用传统的伪相关扩展方法检索文档,得到单个文档与查询之间的相似度:然后将前 n 篇文档聚类,再次计算类别与查询之间的相似度,并将它赋给该类别中的每一...
- 李立何婷婷瞿国忠张勇
- 关键词:聚类信息检索
- 文献传递
- 基于混合并行遗传聚类的文本特征抽取方法研究被引量:1
- 2008年
- 同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响。为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法。该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合。实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度。
- 戴文华焦翠珍何婷婷
- 关键词:并行遗传算法K-MEANS聚类特征抽取