您的位置: 专家智库 > >

国家自然科学基金(60203007)

作品数:8 被引量:48H指数:5
相关作者:孙乐张俊林孙玉芳李飞李文波更多>>
相关机构:中国科学院软件研究所更多>>
发文基金:国家自然科学基金国家高技术研究发展计划北京市科技新星计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 8篇期刊文章
  • 1篇会议论文

领域

  • 9篇自动化与计算...

主题

  • 4篇信息检索
  • 4篇语言模型
  • 4篇中文
  • 4篇中文信息
  • 3篇信息处理
  • 3篇人工智能
  • 3篇中文信息处理
  • 2篇语言处理
  • 2篇自然语言
  • 2篇自然语言处理
  • 2篇自适
  • 2篇自适应
  • 2篇基于主题
  • 2篇计算机
  • 2篇计算机应用
  • 1篇登录
  • 1篇语词
  • 1篇语料
  • 1篇审视
  • 1篇数据查询

机构

  • 9篇中国科学院软...

作者

  • 9篇孙乐
  • 6篇张俊林
  • 4篇孙玉芳
  • 2篇李文波
  • 1篇张玮
  • 1篇冯元勇
  • 1篇张永臣
  • 1篇曲为民
  • 1篇张大鲲
  • 1篇曲卫民
  • 1篇闵金明
  • 1篇李飞

传媒

  • 6篇中文信息学报
  • 2篇计算机研究与...
  • 1篇NCIRCS...

年份

  • 1篇2007
  • 2篇2006
  • 3篇2005
  • 2篇2004
  • 1篇2003
8 条 记 录,以下是 1-9
排序方式:
在查询反馈中改善文档聚类效果的策略研究
在信息检索的查询反馈处理中,可以利用聚类方法进行文档分析进而扩展查询条件[1]。这时被选择进行聚类的文档集合一般是小规模的,并且由于信息检索有限的性能,文档之间可能出现非常接近、一定程度上相似、基本无关等多种情况。本文针...
李文波孙乐
关键词:聚类孤立点信息检索
文献传递
基于主题语言模型的中文信息检索系统研究被引量:5
2005年
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K Means聚类算法”来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek Mercer模型方法相比较,主题语言模型检索系统的平均精度提高大约16 17% ,召回率提高大约9 6 4%。
张俊林孙乐孙玉芳
关键词:人工智能自然语言处理信息检索
基于主题的汉语语言模型的研究被引量:4
2003年
基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的方法 :概率 +线性插值法 ,该方法既改善了语言模型的性能 。
曲卫民张俊林孙乐
关键词:语言模型自适应主题
基于Web数据的特定领域双语词典抽取被引量:16
2006年
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。
张永臣孙乐李飞李文波西野文人于浩方高林
关键词:中文信息处理双语词典
重新审视跨语言信息检索被引量:13
2006年
阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视,进一步明确指出了跨语言信息检索中必须解决的核心问题,最后通过分析研究现状给出了未来可能的重点研究方向。
闵金明孙乐张俊林
关键词:计算机应用中文信息处理跨语言信息检索未登录词词义消歧
基于非连续短语的统计翻译模型研究被引量:5
2007年
目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。
张大鲲张玮冯元勇孙乐
关键词:人工智能机器翻译统计机器翻译
一种改进的基于记忆的自适应汉语语言模型被引量:2
2005年
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使用前文中出现过的词汇外 ,为了避免用词单调 ,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外 ,一篇文章总是围绕某个主题展开 ,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展 ,利用汉语义类词典 ,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能 ,与n元语言模型相比困惑度下降了 4 0 1% ,有效地增强了语言模型的自适应性。
张俊林孙乐孙玉芳
关键词:人工智能自然语言处理语言模型自适应同义词词林
DifX:利用动态索引体系实现高效的XML数据查询被引量:1
2005年
已有的XML数据索引方法从实现思想上可分为两类:结构归纳法和节点定位法·这两种方法都存在一定的问题,结构归纳法的缺点是索引规模较大而且难以有效支持较复杂的查询,而节点定位法的主要缺点是容易形成过多的连接操作·针对这些问题,提出了一种新的动态的XML索引体系DifX,它扩展了已有的动态索引方法,采用一种动态的Bisimilarity的概念,可以根据实际查询需求以及最优化的要求动态决定索引中保存的结构信息,以实现对各种形式的查询最有效的支持·实验结果证明DifX是一种有效而且高效的XML索引方法,其可以获得比已有的XML索引方法更高的查询执行效率·
曲卫民张俊林孙乐孙玉芳
关键词:XML索引
一种改善的基于语言模型的中文检索系统研究被引量:5
2004年
最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能 ,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素 ,但是由于它没有考虑词汇上下文信息 ,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况 ,通过训练语料得到词汇在一定上下文中的相关比率 ,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能 ,与经典语言模型方法相比 ,触发语言模型方法的平均查准率提高了约 12 %,召回率提高了 10 8%。
张俊林曲为民孙乐孙玉芳
关键词:计算机应用中文信息处理语言模型信息检索中文检索系统
共1页<1>
聚类工具0