您的位置: 专家智库 > >

文健

作品数:8 被引量:12H指数:3
供职机构:国防科学技术大学计算机学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 3篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 5篇信息检索
  • 2篇语言建模
  • 2篇聚类
  • 1篇信息处理
  • 1篇信息检索技术
  • 1篇依存句法分析
  • 1篇语词
  • 1篇知网
  • 1篇中文
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇文档
  • 1篇文档模型
  • 1篇消歧
  • 1篇消歧方法
  • 1篇联机分析
  • 1篇联机分析处理
  • 1篇句法分析
  • 1篇计算机
  • 1篇计算机应用

机构

  • 8篇国防科学技术...
  • 5篇北京航空航天...
  • 1篇衢州学院

作者

  • 8篇文健
  • 8篇李舟军
  • 1篇徐义峰
  • 1篇孙继明
  • 1篇李岩
  • 1篇徐云青
  • 1篇李武装

传媒

  • 2篇计算机工程与...
  • 1篇中文信息学报
  • 1篇计算机科学
  • 1篇计算机与信息...
  • 1篇2008年全...

年份

  • 4篇2008
  • 2篇2007
  • 1篇2006
  • 1篇2003
8 条 记 录,以下是 1-8
排序方式:
OLAP模型中慢速变化维技术的研究
数据仓库是一个面向主题的、集成的、非易失的、随时间而变化的、用来支持管理人员决策的数据集合。数据仓库是稳定的,主要是指数据一旦进入数据仓库后,就不能改动。但数据仓库又是时变的,这主要是指在固定的时间周期内追加事实数据,但
文健李舟军
关键词:OLAPSCD
文献传递
基于聚类语言模型的生物文献检索技术研究被引量:3
2008年
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。
文健李舟军
关键词:计算机应用中文信息处理信息检索聚类
一种改进的基于关系的信息检索技术被引量:4
2008年
有研究工作表明现有的基于关系的信息检索技术(RIR)优于基于项(term)或基于语义(concept)的IR技术,但仍存在显而易见的缺陷,即不能明确关系本身,只能表达概念A,B是存在关系的概念对。本文提出一种改进的基于关系的IR技术—IRIR(Improved Relation-based Information Retrieval),就是要明确关系的取值和属性,整合概念对和关系的信息为三元组表达式(triple),通过以下匹配方法获取未知信息。对于文本中出现的知识表示为R(rela-tion)[First Concept,Second Concept],对于疑问代词(如what)开头的查询表达为R(relation)[First Concept,Un-known],对于疑问副词(如how)开头的查询表达为R(Unknown)[First Concept,Second Concept],当文本与查询的三元组表达式中已知部分匹配一致时,则得到查询未知部分的一个取值。由此,既可以实现类似QA(query answer)功能,又可以完成精确信息检索。基于Drexel大学DM&Bioinformatics Lab开发的生物医学文献搜索引擎(2004版,简称为RIRS),我们开发了一个能实现IRIR技术和功能的实验IR引擎—IRIRS(Improved Relation-Based IR Sys-tem),该系统使用UMLS和WordNet两大权威本体库分别确定概念和关系,在博士入学考试英语阅读理解测试集上的实验结果令人满意,IRIRS将文字段级别的检索精确度MA PP(Mean average passage precision)从RIRS的64.44%提高到74.28%。这表明,在IR中应用改进的基于关系的信息检索技术是非常具有探索价值的。
李岩文健李舟军
关键词:信息检索关系抽取查询分析
基于聚类语言模型的生物文献检索技术研究
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比...
文健李舟军
关键词:信息检索聚类
文献传递
通用OLAP工具——KDOLAP的设计与实现
2006年
当前,企业拥有大量的数据,但缺乏对这些数据的有效处理和分析,无法对决策分析提供有效的信息。本文介绍了一种适合小型企业的决策分析工具,该工具以企业现有的数据库作为数据源,通过建立多维数据模型、设计多维分析方法及转换数据显示格式,及时可靠地向决策者提供分析结果。
徐云青徐义峰李武装李舟军文健
关键词:联机分析处理
基于Dirichlet分布语言建模的信息检索技术研究
基于多项式的一元语言模型不能表示文档中的突发(Burstiness)现象,而基于Dirichlet分布的语言模型能够较好地处理突发现象.本文分析和讨论了几种基于Dirichlet分布的语言模型,并以DCM模型为基础,分别...
文健李舟军
关键词:信息检索语言建模文档模型
文献传递
基于Dirichlet分布语言建模的信息检索技术研究被引量:1
2008年
基于多项式的一元语言模型不能表示文档中的突发(Burstiness)现象,而基于Dirichlet分布的语言模型能够较好地处理突发现象。本文分析和讨论了几种基于Dirichlet分布的语言模型,并以DCM模型为基础,分别对文档和查询项进行语言建模,然后采用KL-divergence方法来度量文档模型和查询项模型的相似度。在TREC数据集上的实验表明,与基本的模型相比较,采用DCM模型能够提高信息检索的平均精确度。
文健李舟军
关键词:DCM信息检索
基于《知网》的汉语词语词义消歧方法被引量:4
2007年
本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。
孙继明李舟军文健
关键词:词义消歧知网依存句法分析
共1页<1>
聚类工具0