惠浩添
- 作品数:9 被引量:15H指数:2
- 供职机构:苏州大学更多>>
- 发文基金:江苏省高校自然科学研究项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于自监督学习的维基百科家庭关系抽取被引量:1
- 2015年
- 传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。
- 朱苏阳惠浩添钱龙华张民
- 关键词:维基百科半结构化信息关系抽取
- 一个面向信息抽取的中英文平行语料库
- 除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,本文以OntoNotes中英文平行语料库为基础,通过自...
- 惠浩添李云建钱龙华周国栋
- 关键词:语义关系平行语料库
- 一个面向信息抽取的中英文平行语料库被引量:2
- 2015年
- 除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。
- 惠浩添李云建钱龙华周国栋
- 关键词:语义关系平行语料库
- 一个中文实体链接语料库的建设被引量:7
- 2015年
- 鉴于现有中文实体链接基准语料库的缺乏,在ACE2005中文语料库和中文维基百科的基础上,通过自动构造和人工标注的方法,构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同,构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建,将为中文实体链接研究提供一个可用的基准平台。
- 舒佳根惠浩添钱龙华朱巧明
- 关键词:中文语料库
- 一个中文实体链接语料库的建设
- 鉴于现有中文实体链接基准语料库的缺乏,在ACE2005中文语料库和中文维基百科的基础上,通过自动构造和人工标注的方法,构建一个中文实体链接语料库及其相关的中文知识库.与传统的英文实体链接语料库不同,构造的中文实体链接语料...
- 舒佳根惠浩添钱龙华朱巧明
- 文献传递
- 基于平行语料库的跨语言实体关系抽取研究
- 平行语料库不仅对跨语言关系抽取研究有着重要的意义,同时也为揭示自然语言处理任务在不同语言上的难度以及研究语言之间的互补性和冗余性提供了一个良好的数据平台。而传统的平行语料库仅在句子级对齐,限制了它在跨语言自然语言处理研究...
- 惠浩添
- 关键词:平行语料库实体关系抽取跨语言自然语言处理
- 中文维基百科的实体分类研究被引量:1
- 2015年
- 维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
- 徐志浩惠浩添钱龙华朱巧明
- 关键词:维基百科半结构化信息
- 基于SIFT特征降维的视频车辆跟踪研究
- 2012年
- 针对尺度不变特征变换(SIFT)算法在匹配时特征数量过多导致的耗时过长的问题,该文提出一种基于SIFT和主成分分析(PCA)相结合的SIFT特征降维的视频车辆跟踪算法。首先利用SIFT提取出车辆视频图像帧中的所有特征点及其特征向量,其次使用PCA算法对其维数约减并找出各自的具有代表性的特征参数,达到对特征点向量降维的目的,最后利用西式距离找出不同车辆图像帧中相似的车辆。实验证明,该算法在保证原SIFT算法鲁棒性、稳定性的同时减少了计算量,增加了匹配效率,增强了实时性。
- 詹智财惠浩添张松松
- 关键词:SIFT降维车辆跟踪
- 基于机器翻译的双语协同关系抽取被引量:2
- 2015年
- 传统的弱指导关系抽取研究主要集中于单语言内部。为了充分利用语言之间的互补性来减轻对大规模训练数据的需求,提出一种双语协同训练的关系分类方法。针对小规模标注语料和一定规模的未标注语料,通过机器翻译和实体对齐产生关系实例的双语视图,最后利用协同训练得到两种语言的分类模型。在ACE RDC 2005中英文语料上的实验表明,双语协同训练方法可以同时提高中文和英文的关系分类性能,并且减少对于标注训练数据量的需求。
- 胡亚楠惠浩添钱龙华朱巧明
- 关键词:机器翻译