张俊林
- 作品数:14 被引量:69H指数:5
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市科技新星计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于语言模型的信息检索系统研究
- 基于语言模型的信息检索范型为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向.针对该方法现存的问题,该论文从理论探讨和实际系统开发两个不同的角度来对以下内容进行了研究:(1)提出了触发语言模型检索方法.通过'相关...
- 张俊林
- 关键词:信息检索混合语言模型软件框架
- 文献传递
- 基于主题语言模型的中文信息检索系统研究被引量:5
- 2005年
- 准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K Means聚类算法”来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek Mercer模型方法相比较,主题语言模型检索系统的平均精度提高大约16 17% ,召回率提高大约9 6 4%。
- 张俊林孙乐孙玉芳
- 关键词:人工智能自然语言处理信息检索
- Web检索结果快速聚类方法的研究与实现被引量:5
- 2004年
- 为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,在对聚类过程研究分析的基础上给出了一种Web检索结果快速聚类方法。它通过分析聚类过程,从建立索引模型、相似性的计算到聚类结果的形成等环节,都做了分析和简化,并利用检索结果的标题、Url以及文档片断3部分所含信息计算返回结果之间的相似度,将首先返回的部分检索结果利用无向图映射法进行部分聚类后,将其余返回结果分配到与之最相近的集簇中最终形成聚类结果。该方法实现简单。实验证明该方法响应速度快,聚类相关性较高,空间占用少。
- 王志梅张俊林李秋山
- 关键词:聚类方法文档WEB检索搜索引擎标题
- 基于主题的汉语语言模型的研究被引量:4
- 2003年
- 基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的方法 :概率 +线性插值法 ,该方法既改善了语言模型的性能 。
- 曲卫民张俊林孙乐
- 关键词:语言模型自适应主题
- 社交搜索Graph Search技术解析
- 2013年
- 从数据抽象的角度来看,Facebook的社交图不仅包括好友之间的关系,还包括人和实体以及实体之间的关系。如果将每个实体看作图中的节点,实体之间的关系看作图中的有向边,则Facebook的所有数据会构成超过千亿条边的巨量实体图(Entity Graph)。GraphSearch的定位就是成为能够让用户采用自然语言界面既能搜索实体,也能搜索实体关系的社交搜索引擎。它是如何做到这一点的呢?
- 张俊林
- 关键词:搜索引擎GRAPH社交数据抽象
- 亚洲语言信息检索评测会议NTCIR介绍被引量:2
- 2006年
- 随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研艽领域。而跨语言信息检索评测是检索系统发展过程中非常重要的一环。NTCIR是针对亚洲语言的跨语言信息检索评测会议,本文介绍了NTCIR的发展历史,评测任务安排以及评测语料等有关信息。NTCIR已经成为相关研冤领域的著名国际会议,随着参赛队伍数目增加以及各种评测语料集合的逐步完善,可以预见它的影响将进一步扩大并对相关学科产生更加积极的影响。
- 张俊林黄瑞红孙乐
- 关键词:跨语言信息检索
- 重新审视跨语言信息检索被引量:13
- 2006年
- 阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视,进一步明确指出了跨语言信息检索中必须解决的核心问题,最后通过分析研究现状给出了未来可能的重点研究方向。
- 闵金明孙乐张俊林
- 关键词:计算机应用中文信息处理跨语言信息检索未登录词词义消歧
- 跨语言信息检索研究进展被引量:19
- 2004年
- 随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研究领域。本文介绍了该领域为解决语言间的翻译障碍而研究的各种解决方法并且对汉英跨语言信息检索所面对的独特难点进行了分析,同时本文对国际上重要的跨语言信息检索系统评测会议进行了简单介绍。
- 张俊林曲为民杜林孙玉芳
- 关键词:跨语言信息检索中文信息处理
- 藏文短语及其嵌套短语的提取
- 本文提出一种自动提取藏文短语及其嵌套短语搭配的算法,它通过采用基于统计长短语内词语之间的触发共现和基于句法特征规则相结合的处理策略,利用数据挖掘中的Apriori算法和FTP Tree数据存储结构,克服了N-gram统计...
- 毋建军张俊林孙乐吴健次仁罗布陈俊杰
- 关键词:数据挖掘
- 文献传递
- 2005年度863信息检索评测方法研究和实施被引量:3
- 2006年
- 本次863中文信息检索评测的目的是检测互联网环境下大规模数据的中文信息检索技术的研究现状和系统有效性,中文与接口技术评测组综合考虑了目前信息检索面临的难点以及中文信息检索具有的特点设计了本次信息检索评测,本文详细描述了本次评测的组织过程,包括查询条件设计,语料库情况,标准答案查找方法以及评价指标和评测软件的介绍,通过对参评队伍的结果数据进行分析并结合查询条件的类型,本文还讨论了现有检索技术的优点以及存在的不足。
- 张俊林刘洋孙乐刘群
- 关键词:中文信息检索评测