秦颖
- 作品数:8 被引量:35H指数:3
- 供职机构:北京邮电大学更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术理学语言文字文化科学更多>>
- 实体关系的自动抽取研究被引量:10
- 2006年
- 针对实体关系的自动获取难题,将极大熵算法和Bootstrapping算法相结合,利用Bootstrapping算法和标量聚类的思想,通过设置种子模板和种子词获取了极大熵算法中所需的特征词.结合极大熵算法,从语言的形态学、语法、语义等方面系统地设计了9个特征,尽可能全方位地描述文实体的真实情况.搭建了实验所需的系统框架,实现了实体关系的自动抽取.实验结果表明:该方法能够有效地解决实体关系的自动生成问题.
- 张素香文娟秦颖袁彩霞钟义信
- 关键词:极大熵BOOTSTRAPPING实体关系抽取评测
- 级联中文组块识别被引量:3
- 2008年
- 基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识别的F1值为95.05%;类型识别的准确率为99.43%;整体F1值为93.58%.该方法提高了系统性能,缩短了学习器的训练时间.
- 秦颖王小捷钟义信
- 关键词:条件随机场
- 实体关系的自动抽取研究
- 针对实体关系的自动获取难题,将极大熵算法和Bootstrapping算法相结合,利用Bootstrapping算法和标量聚类的思想,通过设置种子模板和种子词获取了极大熵算法中所需的特征词.结合极大熵算法,从语言的形态学、...
- 张素香文娟秦颖袁彩霞钟义信
- 关键词:实体关系抽取
- 文献传递
- 汉语分词中组合歧义字段的研究被引量:18
- 2007年
- 汉语自动分词中组合歧义是难点问题,难在两点:组合歧义字段的发现和歧义的消解。本文研究了组合歧义字段在切开与不切时的词性变化规律,提出了一种新的组合歧义字段自动采集方法,实验结果表明该方法可以有效地自动发现组合歧义字段,在1998年1月《人民日报》中就检测到400多个组合歧义字段,远大于常规方法检测到的歧义字段数目。之后利用最大熵模型对60个组合歧义字段进行消歧,考察了六种特征及其组合对消歧性能的影响,消歧的平均准确度达88.05%。
- 秦颖王小捷张素香
- 关键词:计算机应用中文信息处理最大熵
- 汉语句子骨架成分识别
- 本文提出了一种利用统计学习算法进行汉语句子骨架成分识别的方法。骨架成分识别基于短句进行,包括主语、核心动词短语、宾语等。骨架成分的单位是基本短语。利用IOB模型编码,将骨架成分识别作为分类问题处理。在两个方面对概率多分类...
- 秦颖张素香王小捷钟义信
- 关键词:文本数据汉语语句
- 文献传递
- 基于Boot Strapping的中文实体关系自动生成被引量:3
- 2006年
- 针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关系的特征词。在此基础上,利用最近邻居的原则,进而生成更多的抽取模板。丰富了知识库,为分析二元实体关系奠定基础,使得生成复杂的消息模板成为可能,同时极大地减轻手工建立模板的复杂度,有利于系统进行移植。
- 张素香李蕾秦颖钟义信
- 关键词:BOOT
- 组合中文词义消歧
- 本文介绍了一种新的组合词义消歧法,该算法利用两种基本的分类算法构造了一个二级分类器.在Senseval3中文词汇样本任务的训练语料上进行了比较评测,结果表明,该组合分类器的性能优于基本NaiveBayes分类器和Ense...
- 秦颖王小捷
- 关键词:词义消歧
- 文献传递
- 汉语词和短语的歧义消解研究
- 信息网络技术的飞速发展使信息的发布和共享超越了时空限制,基于自然语言处理技术的文档高质量自动处理成为热点研究课题。自然语言中普遍存在着歧义现象。计算机处理自然语言文档时,必然要面对和解决各种歧义问题。歧义消解成为自然语言...
- 秦颖
- 关键词:汉语词歧义消解
- 文献传递