北京市教委资助项目(KM200610017007)
- 作品数:2 被引量:3H指数:1
- 相关作者:张国英沙芸孟凡亮更多>>
- 相关机构:北京石油化工学院更多>>
- 发文基金:北京市教委资助项目国家部委预研基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于关键词提取的娱乐新闻文档去重算法被引量:3
- 2007年
- 去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档。实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%-30%。
- 沙芸张国英孟凡亮
- 关键词:关键词提取新词识别文档相似度
- 基于词汇图的搜索结果聚类算法
- 2007年
- 将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词汇图的搜索结果聚类算法,以词作为聚类的核心依据,定义了以词为顶点、文档为词的属性、词间相关度为边的词汇图,并以词汇图为依据进行文档类别划分.充分利用了词间的关联信息,增强了同义词的扩展能力,划分后即可确定类别名.实验结果表明,进行搜索结果聚类时与传统算法相比质量上有所提高.
- 沙芸张国英
- 关键词:搜索结果聚类同义词文档相似度