国家自然科学基金(60503072) 作品数:6 被引量:70 H指数:4 相关作者: 刘挺 李生 张宇 张志昌 车万翔 更多>> 相关机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于双语语料库的短语复述实例获取研究 本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比... 李维刚 刘挺 李生关键词:双语语料库 文献传递 句法与词义相结合的中文代词消解 句法知识对代词消解有着很大的支持。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。本文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的... 宋巍 秦兵 郎君 刘挺关键词:代词消解 支持向量机 文献传递 面向句法分析的句子片段识别 句子长度对句法分析的性能有着很大的影响,无论是搜索算法的复杂度还是歧义结构的数量都会随着句子长度的增加而急剧增长。本文针对汉语句子的长度问题,使用了一种片段识别的方法:先将句子划分为多个片段, 根据语法结构,识别出每个片... 马金山 刘挺 李生关键词:依存句法分析 标点 文献传递 基于线索词识别和训练集扩展的中文问题分类 被引量:6 2009年 针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。 张志昌 张宇 刘挺 李生基于子话题分治匹配的新事件检测 新事件柃测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题。现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成了话题间互为噪声并形成错误语义, 从而误导新话题的识别。针对这一缺陷,本... 洪宇 张宇 范基礼 刘挺 李生关键词:新事件检测 话题检测与跟踪 文献传递 中文语义角色标注的特征工程 被引量:47 2007年 基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。 刘怀军 车万翔 刘挺关键词:中文信息处理 语义分析 语义角色标注 最大熵分类器 2005年863信息检索评测哈尔滨工业大学信息检索研究室技术报告 2006年 首先用向量空间模型工具Lucene从全部网页正文信息中检索,再用语言模型工具Lemur对结果集进行重排序,然后将两次的结果进行融合,远回融合结果的前1000篇文档作为最终结果集。构造查询输入时,从主题的〈title〉字段和〈dese〉字段选择关键词,并依据tf*idf的思想对关键词赋予权值。时正式评测的50个主题集检索,获得的三项评价指标为:程序自动构造查询时,MAP=0.3107,P@10=0.624,R-Preeision=0.3672;人工构造查询时,MAP=0.3538,P@10=0.684,R-Preelsion=0.4078。 张志昌 张宇 高立琦 袁新成 胡晓光 刘挺 李生关键词:向量空间模型 语言模型 基于相关性模型的中文话题跟踪研究 作为话题检测与跟踪的重要研究子课题,话题跟踪针对特定话题,识别后续信息流中的相关报道。针对话题本身的漂移现象,本文基于改进的相关性模型,对跟踪中伪相关反馈包含的新颖信息进行检测和建模,并在此基础上动态调整话题空间,跟踪话... 郑伟 张宇 邹博伟 洪宇 刘挺关键词:向量空间模型 文献传递 基于ontology抽取优化初始选择的检索结果聚类 被引量:8 2008年 本文针对互联网的数据量的不断增加,准确搜索引擎的作用日益困难的问题,为了提高搜索引擎返回结果结构化聚类的效果,让信息的定位更迅速,本文采用基于标签的聚类算法,并使用自然语言处理技术中的依存句法分析和词典资源,深度挖掘语义结构,提出基于优化初始选择的K均值聚类方法.本文深入分析K均值聚类算法特点,并利用类别标签技术对该算法进行有效改进.实验证明该算法不仅在效果上优于一般聚类算法,对结果描述也有很大帮助,在效率上也得到很大提高. 陈毅恒 秦兵 宋凡 刘挺 李生关键词:检索结果聚类 ONTOLOGY 标签 BOOTSTRAPPING FOR EXTRACTING RELATIONS FROM LARGE CORPORA 被引量:7 2008年 A new approach of relation extraction is described in this paper. It adopts a bootstrap- ping model with a novel iteration strategy, which generates more precise examples of specific relation. Compared with previous methods, the proposed method has three main advantages: first, it needs less manual intervention; second, more abundant and reasonable information are introduced to represent a relation pattern; third, it reduces the risk of circular dependency occurrence in bootstrapping. Scalable evaluation methodology and metrics are developed for our task with comparable techniques over TianWang 100G corpus. The experimental results show that it can get 90% precision and have excellent expansibility. Li Weigang Liu Ting Li Sheng关键词:BOOTSTRAPPING PATTERNS TUPLES