教育部“新世纪优秀人才支持计划”(NCET-05-0287)
- 作品数:2 被引量:8H指数:2
- 相关作者:王会珍朱靖波张希娟陈文亮任飞亮更多>>
- 相关机构:东北大学更多>>
- 发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 基于改进型Dotplotting的文本分割模型
- Dotplotting是文本分割领域的著名算法,本文在对Dotplotting算法改进的基础上,提出了 MMS模型。原始的Dotplotting算法仅考虑了语义段落间相似度来进行分割,而MMS模型综合考虑语义段落内部相似...
- 叶娜罗海涛郑妍朱靖波张斌
- 关键词:文本分割
- 文献传递
- 面向文本分类的基于最小冗余原则的特征选取
- 在文本分类中,为了降低计算复杂度,常用的特征选取方法(如 IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(Minimal Redundancy Pr...
- 张希娟王会珍朱靖波
- 关键词:特征选取文本分类
- 文献传递
- 基于谓词驱动模板的汉日机器翻译方法
- 本篇文章通过对汉语中谓词以及结构辅助词的分析研究提出了一种基于谓词驱动模板的机器翻译方法。谓词驱动模板方法将谓词以及结构辅助词固化在模板中,实现句子级的结构精确匹配,从而在模板库中找到最适合的翻译模板进行翻译。根据汉语中...
- 陈晴姚天顺张俐姜涛石磊李彦丹肖桐
- 关键词:谓词
- 文献传递
- 基于主动学习的自适应话题追踪
- 针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL。该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型。在更新话题模型的过程中,尝试确...
- 王会珍张希娟朱靖波张斌
- 文献传递
- 基于条件随机场的中文命名实体识别特征比较研究
- 命名实体识别任务主要是识别文本中的人名、地名、机构名等实体。基于条件随机场的命名实体识别是目前常用方法。特征是影响命名实体识别性能的重要因素,由于命名实体识别任务中可用到的特征及其组合很多,因此选取合适的特征是提高性能、...
- 张祝玉任飞亮朱靖波
- 关键词:命名实体识别条件随机场特征选取
- 文献传递
- 基于Bootstrapping的领域多词串自动获取
- 在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器...
- 郑妍肖桐朱靖波
- 关键词:领域知识BOOTSTRAPPINGC-VALUE
- 文献传递
- 基于二维动态规划的文本分割模型
- 本文提出一种全局优化的文本分割模型,其中设计了基于语段内部词汇相似度、语段间词汇相似度和语段长度的分割方式评价函数,并采用二维动态规划来寻找全局最优解。模型基于如下假设:语段内部词汇相似度越大,语段间词汇相似度越小,语段...
- 叶娜郑妍朱靖波张斌
- 关键词:文本分割
- 文献传递
- 基于多层次特征集成的中文实体指代识别
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:条件随机场模型
- 文献传递
- 基于词分布的初始点选取方法
- 本文选用动态聚类算法对汉语的词进行同义词聚类分析。在该任务中,为了改善初始点给动态聚类算法全局最优性造成的严重影响,本文提出了一种根据词在文本类别中的分布选择初始点的方法。此方法在k-均值和k-中心点这两种典型的动态聚类...
- 季铎朱靖波
- 关键词:词聚类
- 文献传递