国家自然科学基金(61070106)
- 作品数:3 被引量:47H指数:2
- 相关作者:来斯惟赵军刘康徐立恒陈玉博更多>>
- 相关机构:中国科学院自动化研究所中国大百科全书出版社更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划北京市重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于表示学习的中文分词算法探索被引量:34
- 2013年
- 分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。
- 来斯惟徐立恒陈玉博刘康赵军
- 关键词:中文分词
- 基于多特征表示的本体概念挂载
- 本文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得概念问层级关系。本文将中国大百科知识体系扩展为百万级...
- 徐立恒刘洋来斯惟刘康田野王渝丽赵军
- 关键词:本体
- 文献传递
- 基于多特征表示的本体概念挂载被引量:2
- 2012年
- 该文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得本体概念间层级关系。该文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念的属性、概念之间的非层级关系以及支持问答服务等应用建立了良好的基础。实验证明该方法相对于单一特征方法能够提高11.8%的挂载精度。
- 徐立恒刘洋来斯惟刘康田野王渝丽赵军
- 关键词:本体
- 面向非结构化文本的开放式实体属性抽取被引量:11
- 2013年
- 从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.
- 曾道建来斯惟张元哲刘康赵军
- 关键词:属性抽取非结构化百度百科