国家高技术研究发展计划(2001AA114111) 作品数:9 被引量:86 H指数:5 相关作者: 宋柔 熊文新 罗智勇 许勇 钱揖丽 更多>> 相关机构: 北京语言大学 北京工业大学 北京外国语大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
《中国大百科全书》人物传记知识提取加工规范 将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投... 颜伟 王洁 尚英 宋柔关键词:人物传记 知识提取 文献传递 简单短语及线性邻接属性研究 简单短语是从计算机处理汉语的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组。本文界定简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一... 宋柔 尚英 赵瑾信息检索用户查询语句的停用词过滤 被引量:23 2007年 针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。 熊文新 宋柔关键词:用户查询 停用词 基于半CRF模型的百科全书文本段落划分 被引量:3 2008年 介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能. 许勇 宋柔关键词:自然语言处理 隐马尔科夫模型 信息检索需求描述中的词语区域凸显 2008年 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。 熊文新 宋柔关键词:信息检索 功能块 相似词及其在计算机辅助校对系统中的应用 统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而... 罗智勇 宋柔关键词:数据稀疏 相似词 计算机辅助校对 文献传递 基于HMM的百科辞典文本中知识点划分方法 在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的... 许勇 宋柔关键词:HMM 自然语言处理 文献传递 简单短语及线性邻接属性研究 简单短语是从汉语处理的使用需求出发提出的概念,是较易自动识别、较高频、类内语法功能相似的若干类词组。本文界定了简单短语的概念,给出了简单短语类的草拟清单,并提出用线性邻接关系表现简单短语的语法特征,使词和词组能在同一个体... 宋柔 尚英 赵瑾文献传递 《中国大百科全书》中行政地理知识的人工提取规范 文本知识提取是语言信息处理的一个重要内容。我们工作的目标是用计算机自动提取百科全书中有形式特征的显性知识。为此,需要先进行人工提取,为机器自动提取知识做准备。本文主要介绍了我们的知识提取工作的总体思路,并且选择了其中的行... 尚英 宋柔关键词:知识提取 复杂知识 文献传递 信息检索查询语句的表述分析 我们的考察对象是用户向计算机信息系统提交的查询输入形式。它属于人机实时书面语言交流。这决定了机器只能依据用户书面语言表述来提取其信息需求,而无法利用人际面对面交流环境中的非语言交际因素和诸如声调等语音信号信息。 熊文新 宋柔文献传递