国家自然科学基金(60473140)
- 作品数:4 被引量:66H指数:3
- 相关作者:朱靖波王会珍陈文亮姚天顺朱慕华更多>>
- 相关机构:东北大学更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于谓词驱动模板的汉日机器翻译方法
- 本篇文章通过对汉语中谓词以及结构辅助词的分析研究提出了一种基于谓词驱动模板的机器翻译方法。谓词驱动模板方法将谓词以及结构辅助词固化在模板中,实现句子级的结构精确匹配,从而在模板库中找到最适合的翻译模板进行翻译。根据汉语中...
- 陈晴姚天顺张俐姜涛石磊李彦丹肖桐
- 关键词:谓词
- 文献传递
- 基于主动学习的自适应话题追踪
- 针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL。该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型。在更新话题模型的过程中,尝试确...
- 王会珍张希娟朱靖波张斌
- 文献传递
- 主动学习中后验概率尖锐现象的平滑处理
- 在主动学习中,朴素贝叶斯分类器的后验概率尖锐现象严重影响对候选朱标样本信息量的正确评估, 降低基于不确定性的采样机制的性能。为了解决朴素贝叶斯分类器后验概率尖锐的问题,本文提出了一种采样平滑技术,对朴素贝叶斯分类器的后验...
- 张希娟朱靖波
- 关键词:朴素贝叶斯分类器
- 文献传递
- 面向文本分类的基于最小冗余原则的特征选取
- 在文本分类中,为了降低计算复杂度,常用的特征选取方法(如 IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(Minimal Redundancy Pr...
- 张希娟王会珍朱靖波
- 关键词:特征选取文本分类
- 文献传递
- 基于反馈学习自适应的中文话题追踪被引量:26
- 2006年
- 在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。
- 王会珍朱靖波季铎叶娜张斌
- 关键词:计算机应用中文信息处理
- 应用支持向量机进行中文分词
- 本文首次使用SVM方法来完成中文分词的任务,使用上下文窗体属性和基于规则的属性对样本进行刻画。在实验中我们发现上下文窗体的长度及多项式核函数的参数d对实验性能影响很大。选取较多的上下文信息并不能使分类效果提高,在一定程度...
- 任飞亮石磊姚天顺
- 关键词:支持向量机中文分词
- 文献传递
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 基于改进型Dotplotting的文本分割模型
- Dotplotting是文本分割领域的著名算法,本文在对Dotplotting算法改进的基础上,提出了 MMS模型。原始的Dotplotting算法仅考虑了语义段落间相似度来进行分割,而MMS模型综合考虑语义段落内部相似...
- 叶娜罗海涛郑妍朱靖波张斌
- 关键词:文本分割
- 文献传递
- 基于二维动态规划的文本分割模型
- 本文提出一种全局优化的文本分割模型,其中设计了基于语段内部词汇相似度、语段间词汇相似度和语段长度的分割方式评价函数,并采用二维动态规划来寻找全局最优解。模型基于如下假设:语段内部词汇相似度越大,语段间词汇相似度越小,语段...
- 叶娜郑妍朱靖波张斌
- 关键词:文本分割
- 文献传递
- 基于多层次特征集成的中文实体指代识别
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:条件随机场模型
- 文献传递