您的位置: 专家智库 > >

国家高技术研究发展计划(2001AA114111)

作品数:9 被引量:86H指数:5
相关作者:宋柔熊文新罗智勇许勇钱揖丽更多>>
相关机构:北京语言大学北京工业大学北京外国语大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划教育部科学技术研究重点项目更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 9篇会议论文
  • 8篇期刊文章

领域

  • 16篇自动化与计算...
  • 2篇文化科学

主题

  • 5篇自然语言
  • 5篇百科
  • 4篇语言处理
  • 4篇自然语言处理
  • 3篇信息检索
  • 3篇知识
  • 3篇百科全书
  • 3篇查询
  • 2篇语言模型
  • 2篇知识点
  • 2篇知识提取
  • 2篇中国大百科全...
  • 2篇统计语言模型
  • 2篇自动分词
  • 2篇文本
  • 2篇分词
  • 2篇《中国大百科...
  • 2篇百科辞典
  • 2篇HMM
  • 2篇查询语句

机构

  • 17篇北京语言大学
  • 8篇北京工业大学
  • 3篇北京外国语大...

作者

  • 17篇宋柔
  • 5篇尚英
  • 4篇罗智勇
  • 3篇许勇
  • 3篇熊文新
  • 1篇赵瑾
  • 1篇王洁
  • 1篇颜伟
  • 1篇荀恩东
  • 1篇钱揖丽

传媒

  • 2篇北京工业大学...
  • 2篇计算机工程
  • 2篇计算机科学
  • 1篇计算机研究与...
  • 1篇计算机工程与...
  • 1篇全国第八届计...

年份

  • 2篇2008
  • 3篇2007
  • 3篇2006
  • 4篇2005
  • 3篇2004
  • 2篇2003
9 条 记 录,以下是 1-10
排序方式:
《中国大百科全书》人物传记知识提取加工规范
将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投...
颜伟王洁尚英宋柔
关键词:人物传记知识提取
文献传递
简单短语及线性邻接属性研究
简单短语是从计算机处理汉语的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组。本文界定简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一...
宋柔尚英赵瑾
信息检索用户查询语句的停用词过滤被引量:23
2007年
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
熊文新宋柔
关键词:用户查询停用词
基于半CRF模型的百科全书文本段落划分被引量:3
2008年
介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能.
许勇宋柔
关键词:自然语言处理隐马尔科夫模型
信息检索需求描述中的词语区域凸显
2008年
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。
熊文新宋柔
关键词:信息检索功能块
相似词及其在计算机辅助校对系统中的应用
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
罗智勇宋柔
关键词:数据稀疏相似词计算机辅助校对
文献传递
基于HMM的百科辞典文本中知识点划分方法
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的...
许勇宋柔
关键词:HMM自然语言处理
文献传递
简单短语及线性邻接属性研究
简单短语是从汉语处理的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组。本文界定了简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一个体...
宋柔尚英赵瑾
文献传递
《中国大百科全书》中行政地理知识的人工提取规范
文本知识提取是语言信息处理的一个重要内容。我们工作的目标是用计算机自动提取百科全书中有形式特征的显性知识。为此,需要先进行人工提取,为机器自动提取知识做准备。本文主要介绍了我们的知识提取工作的总体思路,并且选择了其中的行...
尚英宋柔
关键词:知识提取复杂知识
文献传递
信息检索查询语句的表述分析
我们的考察对象是用户向计算机信息系统提交的查询输入形式。它属于人机实时书面语言交流。这决定了机器只能依据用户书面语言表述来提取其信息需求,而无法利用人际面对面交流环境中的非语言交际因素和诸如声调等语音信号信息。
熊文新宋柔
文献传递
共2页<12>
聚类工具0