您的位置: 专家智库 > >

教育部重点实验室开放基金(KLCL-1005)

作品数:13 被引量:49H指数:5
相关作者:张仰森吴林王璐郭江夏华林更多>>
相关机构:北京信息科技大学更多>>
发文基金:教育部重点实验室开放基金国家自然科学基金北京市属高等学校人才强教计划资助项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 13篇期刊文章
  • 1篇会议论文

领域

  • 14篇自动化与计算...

主题

  • 5篇消歧
  • 5篇词义消歧
  • 3篇知识库
  • 3篇汉语
  • 3篇词义
  • 3篇搭配
  • 2篇语词
  • 2篇语义
  • 2篇语义搭配
  • 2篇知识源
  • 2篇中文
  • 2篇最大熵
  • 2篇最大熵原理
  • 2篇消歧方法
  • 2篇汉语词
  • 2篇汉语词义
  • 2篇多知识源
  • 2篇查错
  • 2篇词语
  • 2篇词语搭配

机构

  • 14篇北京信息科技...

作者

  • 14篇张仰森
  • 3篇吴林
  • 3篇王璐
  • 2篇苏文杰
  • 2篇黄改娟
  • 2篇郭江
  • 1篇乔剑敏
  • 1篇苗海
  • 1篇管君
  • 1篇夏华林
  • 1篇岳明
  • 1篇车玲
  • 1篇郑瑞娟
  • 1篇谢玮

传媒

  • 4篇北京信息科技...
  • 3篇计算机工程
  • 3篇中文信息学报
  • 1篇计算机应用
  • 1篇计算机工程与...
  • 1篇计算机科学

年份

  • 3篇2013
  • 7篇2012
  • 3篇2011
  • 1篇2010
13 条 记 录,以下是 1-10
排序方式:
动态自适应加权的多分类器融合词义消歧模型被引量:1
2012年
词义消歧一直是自然语言处理中的热点和难题。集成方法被认为是机器学习研究的四大趋势之一,在系统研究已有集成学习方法在汉语词义消歧中的应用后,借鉴模式识别领域集成分类器思想,提出了一种动态自适应加权投票的多分类器集成方法来构建融合分类器。实验结果表明,所提融合分类器模型对汉语文本自动消歧结果的准确率提高较大。
张仰森郭江
关键词:词义消歧分类器多分类器融合
词义标注一致性检验系统的设计与实现被引量:3
2010年
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。
乔剑敏张仰森
关键词:计算机应用中文信息处理词义标注《知网》语料语句相似度
面向词义消歧的条件随机场模型库构建被引量:1
2012年
以条件随机场(CRF)作为构建词义消歧模型库的概率模型,利用CRF分别训练高频义项和低频义项标点句语料,应用生成的模型文件进行消歧实验。通过分析标注结果中的概率值确定阈值,以区分标注正确项和错误项。使用表现较好的模型文件和相应阈值构建面向词义消歧的条件随机场模型库。实验结果证明,对低频义项建模的词义消歧效果优于对高频义项进行建模,可以达到80%以上的正确率,并且可以获得较高的召回率。
车玲张仰森
关键词:多义词词义消歧条件随机场
《现代汉语语法信息词典》的概率化改造及其应用
2011年
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。
吴林张仰森王璐
关键词:查错纠错
四种统计词义消歧模型的分析与比较被引量:7
2011年
综合考察了贝叶斯模型、决策树模型、向量空间模型、最大熵模型在汉语词义消歧上的应用,并对它们的消歧效果进行比较,为词义消歧模型的选择与应用奠定基础。
张仰森郭江
关键词:词义消歧特征提取
基于概念的Web文本分类方法及实现
2013年
通过研究html网页结构,实现对Web网页中纯文本内容的提取。通过对传统的特征提取方法和文本分类方法进行研究,提出基于概念词典的概念特征提取方法,通过特征提取使用简单向量模糊距离匹配算法对文本进行分类,设计并实现了一个基于中文概念的Web文本分类系统。通过对实验数据的对比分析,引入概念特征之前分类的准确率最高达到89%,引入概念特征后分类平均效率达到95%以上,较之前有较大提高。
郑瑞娟张仰森
关键词:WEB文本分类概念词典
基于隐最大熵原理的汉语词义消歧方法被引量:8
2012年
该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方法。在结合传统的上下文特征后,应用隐最大熵原理进行文本中多义词的词义消歧。实验结果表明,采用文中所提方法对十个多义动词进行词义消歧,正确率提高了约4%。
张仰森黄改娟苏文杰
关键词:词义消歧
基于典型句型的词语搭配定量分析及提取算法被引量:6
2012年
在分析现有的词语搭配自动提取算法的不足后,提出了一种新的词语搭配提取算法,尝试从非结构化语言知识到结构化语言知识的转化。基于词语搭配的语言学知识,构建了基于典型句型的词语搭配模型,其以动词、名词及形容词为中心词分类搭配,以实词为主干提取搭配,利用共现频率及互信息等统计学模型在大规模语料库中进行筛选,固化这些搭配知识,构建搭配知识库。
王璐张仰森
关键词:词语搭配互信息
基于知识库的多层级中文文本查错推理模型被引量:10
2012年
以往的中文文本查错研究主要针对字词错误,对句法、语义的错误推理研究不够。为此,利用统计模型和大规模人民日报语料库构建并扩充查错知识库,针对文本中字词、语法以及语义3个层次的错误,提出相应的多层级查错推理模型。设计并实现3个层级的文本查错算法,构建自动查错系统进行综合查错。实验结果表明,该系统查错性能较优,召回率达到85.62%。
吴林张仰森
关键词:中文文本知识库
基于多知识源的语义搭配知识库的构建及应用被引量:3
2013年
针对汉语文本语义搭配错误,在对《现代汉语语义信息词典》(以下简称《语义词典》)及《知网》相关属性的研究基础上,提出了基于多知识源的语义搭配知识库的构建方法,并设计出了面向汉语文本语义查错的三层语义搭配知识库结构。在此基础上,设计并实现了一个汉语文本自动查错算法。实验结果表明,基于上述方法所设计的语义搭配知识库,可以大大提高汉语文本语义查错算法错误查找的召回率,对于语义查错的研究具有一定的借鉴作用。
管君谢玮张仰森
关键词:汉语文本语义搭配多知识源
共2页<12>
聚类工具0