北京市重大科技计划项目(H030130050610)
- 作品数:1 被引量:5H指数:1
- 相关作者:王洪俊俞士汶肖诗斌施水才更多>>
- 相关机构:北京信息工程学院北京大学更多>>
- 发文基金:国家自然科学基金北京市重大科技计划项目国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 人民日报标注语料的索引方法研究
- 本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:混合索引
- 文献传递
- 跨语言相似文档检索被引量:5
- 2007年
- 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:计算机应用中文信息处理文档相似度
- 跨语言文档对齐
- 本文提出了一种新的双语文档对齐算法,该算法用TFIDF 方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice 方法的改进算法计算双语文档的相似度。实验表明,该算法可以准确地发现一种语言书写的文档在...
- 王洪俊施水才俞士汶肖诗斌
- 关键词:文档相似度
- 文献传递
- 基于查询日志的查询建议挖掘
- 本文对“天网”搜索引擎的查询日志进行了数据挖掘,利用同一用户在短时间内输入的查询之间的潜在相关性,挖掘相关查询,在此基础上构造了一部相关查询词典,向搜索引擎用户提供查询建议。
- 王洪俊赖志国施水才肖诗斌
- 关键词:日志挖掘查询日志
- 文献传递