任飞亮
- 作品数:12 被引量:135H指数:3
- 供职机构:东北师范大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 基于统计的锚点词候选集的获取
- 2003年
- 段对齐是在双语语料库中把各个段和它们的相应译文建立起对应关系,进而为以后的句子级对齐、短语级对齐和词汇级对齐提供资源。它在整个对齐研究中起到一个承上启下的作用。利用锚点词信息完成段对齐是一种常用且有效的方法。锚点词要求数量少准确率高,同时更为重要的是它要求具有可以说明两个段之间有对应关系的相对明显的特征,这就是说并不是文章中的每个词都可以做锚点词,锚点词也不是越多越好,这也决定了获取过程中不能借助字典等辅助信息,而必须使用其它方法。文章提出一种新的锚点词候选集的获取方法,通过统计和相似计算来得到锚点词的候选集信息。通过控制统计串的出现频数和相似度的大小就可得到令人满意的可用的结果。实验结果表明,当取高阈值且高相似度时,就可得到很高的准确率。因而该方法是一种获取锚点词的有效方法。
- 任飞亮吕学强吴宏林姚天顺
- 关键词:双语语料库向量相似度
- 应用支持向量机进行中文分词
- 本文首次使用SVM方法来完成中文分词的任务,使用上下文窗体属性和基于规则的属性对样本进行刻画。在实验中我们发现上下文窗体的长度及多项式核函数的参数d对实验性能影响很大。选取较多的上下文信息并不能使分类效果提高,在一定程度...
- 任飞亮石磊姚天顺
- 关键词:支持向量机中文分词
- 文献传递
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 基于统计的汉英法律文献亚句子级对齐被引量:10
- 2003年
- 基于统计的句子对齐是根据双语句子的长度在所有可能的对齐中找出概率最大的一个·提出两种对齐汉英语料的参数计算方法,使对齐模型中的评价函数满足标准正态分布·参数s2的值是对训练语料中的所有点(l1,(l2-cl1)2)进行线性回归分析所得直线的斜率,s2的另一种求法是直接计算方差·实验结果表明汉英法律文献亚句子级对齐的正确率为98 8%,召回率为99 2%·
- 吕学强李清隐任飞亮姚天顺
- 关键词:双语语料库标准正态分布
- 模糊形式概念分析与模糊概念格被引量:19
- 2007年
- 针对在许多应用领域中,大多数信息都是复杂的、不确定的,而传统的形式概念分析不能表达这些模糊的、不确定的信息问题,介绍了将Zadeh的模糊数学理论与形式概念分析理论相结合所形成的模糊形式概念分析理论.给出并证明了在模糊形式背景下对象集合及属性集合的一些结论.建立了在模糊形式背景下的模糊概念格并证明了该模糊概念格仍然是一个完备格.最后用实例说明了这种模糊概念格的构造方法.
- 胡明涵张俐任飞亮
- 关键词:形式概念分析模糊概念格完备格
- 基于语料库的最小求交词对齐被引量:1
- 2004年
- 提出了一种基于句子级对齐的双语语料库的英汉词对齐方法 .它建立在句对的集合表示形式的基础上 ,通过最小求交模型实现词对齐 .使用倒排索引表和集合运算实现高效的最小求交算法 .在对齐过程中引入高频干扰词表以提高召回率 .实验结果表明 。
- 吴宏林吕学强吕学强任飞亮姚天顺
- 关键词:自然语言处理双语语料库词对齐
- 基于统计的汉英句子对齐研究
- 翻译比较规范的汉英语料适合用统计方法实现句子对齐.但评价函数中的参数计算不能采用处理印欧语种的方法,而要针对汉英语种的特点进行调整在已有两种评价函数的基础上,文中又提出五种评价函数,并进行了对比研究.
- 吕学强李清隐任飞亮姚天顺
- 关键词:双语语料句子对齐评价函数
- 文献传递
- 基于多层次特征集成的中文实体指代识别
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:条件随机场模型
- 文献传递
- 高适应性基于实例的机器翻译中关键技术研究
- 互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。然而,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息...
- 任飞亮
- 关键词:自然语言处理机器翻译语言模型中文分词指代消解词义消歧
- 文献传递
- 基于词形相似和语义距离的最佳翻译模板检索算法(英文)
- 利用翻译模板完成翻译是EBMT中常用的一种方法。如何快速准确的从模板库中找到最适合输入句子的翻译模板是决定翻译成败与翻译质量的关键,本文提出一种基于词形相似和语义距离的最佳翻译模板检索算法,既保留了基于词形相似的检索算法...
- 任飞亮吕学强吴宏林马越姚天顺
- 关键词:翻译模板语义距离倒排索引
- 文献传递