您的位置: 专家智库 > >

许勇

作品数:11 被引量:34H指数:3
供职机构:北京工业大学计算机学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划教育部科学技术研究重点项目更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 6篇期刊文章
  • 2篇学位论文
  • 2篇会议论文
  • 1篇科技成果

领域

  • 10篇自动化与计算...
  • 1篇语言文字

主题

  • 7篇自然语言
  • 6篇语言处理
  • 6篇自然语言处理
  • 4篇百科
  • 2篇信息提取
  • 2篇隐马尔科夫模...
  • 2篇域模型
  • 2篇知识
  • 2篇知识点
  • 2篇知识获取
  • 2篇知识获取系统
  • 2篇搜索
  • 2篇条件随机域
  • 2篇条件随机域模...
  • 2篇文本
  • 2篇马尔科夫
  • 2篇马尔科夫模型
  • 2篇百科辞典
  • 2篇百科词典
  • 2篇百科全书

机构

  • 10篇北京工业大学
  • 7篇北京语言大学

作者

  • 11篇许勇
  • 7篇宋柔
  • 2篇喻国宝
  • 2篇马朝斌
  • 1篇岳炳词
  • 1篇李卫亮
  • 1篇李飞
  • 1篇喻国宝
  • 1篇戴伟长
  • 1篇张强弓
  • 1篇罗智勇
  • 1篇荀恩东
  • 1篇贾爱平
  • 1篇陈小荷
  • 1篇娄珽
  • 1篇袁江
  • 1篇王慧玲

传媒

  • 1篇微计算机应用
  • 1篇北京工业大学...
  • 1篇计算机工程
  • 1篇计算机工程与...
  • 1篇中文信息学报
  • 1篇信息安全与通...

年份

  • 1篇2008
  • 2篇2007
  • 1篇2006
  • 1篇2005
  • 3篇2004
  • 1篇2002
  • 2篇2001
11 条 记 录,以下是 1-10
排序方式:
现代汉语通用分词系统
宋柔戴伟长罗智勇娄珽李卫亮李飞陈小荷喻国宝袁江许勇岳炳词王慧玲
该研究技术原理为歧义切分对5段和5段以下的歧义字段进行了穷尽式的分析处理,对于5段以上的歧义字段提出了高准确度的一般性规则,实现了专名识别和排歧的一体化算法。性能指标:分词准确率(分词正确的字数/全文字数)>98%;分词...
关键词:
关键词:自动分词专名识别
Web搜索与特定内容核查技术初探
2004年
    为了快速、高效、准确地对Internet 上发布的Web 信息进行内容核查,本文提出了一种多层结构的Web搜索与特定内容核查软件的系统结构,分析了该结构的技术特点,并阐述了基于信息检索(IR)的特定内容核查的技术和方法。
许勇喻国宝马朝斌
关键词:WEB搜索WEB信息多层结构核查信息检索
基于CRF的百科全书文本段落划分被引量:4
2007年
CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。
许勇宋柔
关键词:条件随机域模型隐马尔科夫模型
基于半CRF模型的百科全书文本段落划分被引量:3
2008年
介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能.
许勇宋柔
关键词:自然语言处理隐马尔科夫模型
基于互连网的术语定义获取系统被引量:21
2004年
文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。
许勇荀恩东贾爱平宋柔
关键词:人工智能自然语言处理信息抽取
百科全书文本的段落划分研究
社会快速发展,各种知识爆发式增加。知识的自动获取,特别是从自然语言文本中自动获取知识成为重要的研究课题,这一课题既有极大的应用需求,又有理论上的挑战性。 百科全书文本中包含着集中、系统、全面的知识,是比较理想的...
许勇
关键词:段落划分HMM模型CRF模型自然语言文本知识库
文献传递
基于HMM的百科辞典文本中知识点划分方法
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的...
许勇宋柔
关键词:HMM自然语言处理
文献传递
基于百科词典的知识获取系统的研究与实现
从各种自然语言文本中获取知识是自然语言处理技术的重要应用。本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统。具体工作包括:利用分词工具进行初步的词条分类:在词条分类...
许勇宋柔
关键词:自然语言处理知识获取信息提取
文献传递
基于百科词典的知识获取系统的研究与实现
该文从信息提取的角度出发研究知识获取任务,实现了基于《中国大百科全书》的、限定范围内的试验性百科词典知识获取系统.具体工作包括:利用分司工具进行了初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工...
许勇
关键词:自然语言处理信息提取
文献传递
基于HMM的百科辞典文本中句子的知识点分类被引量:5
2005年
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型不同的条目文本中的分布有较强的规律性。在条目文本中识别出对应的知识点序列是百科全书中知识提取过程的重要一环。该文提出了一种基于隐马尔科夫(HMM)模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。
许勇宋柔
关键词:HMM自然语言处理
共2页<12>
聚类工具0