于新
- 作品数:6 被引量:16H指数:2
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:中国科学院西部行动计划项目中国科学院知识创新工程国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 面向汉藏辅助翻译系统的平行语料库建设
- 本文首先在对目前自然语言处理中计算机辅助翻译系统的思想和设计做了简要描述的基础上,提出了目前针对于汉藏双语的计算机辅助翻译系统中汉藏双语平行语料库的设计方案,以及在汉藏双语平行语料库设计中所涉及到的各种藏语编码格式的统一...
- 赵维纳刘汇丹于新吴健张普
- 关键词:计算机应用中文信息处理藏文信息处理
- 文献传递
- 基于法律文本的藏语句子边界识别
- 由于传统藏语书写中标点符号的特殊性,在藏语句子中如何找到正确的句子边界,是正确识别句子的首要问题。本文通过对藏语法律文本语料的观察,利用规则提出了一个藏语句子边界的识别算法。同时对藏语法律文本的句式特点进行初步的分析和探...
- 赵维纳刘汇丹于新吴健张普
- 关键词:断句藏文信息处理中文信息处理
- 文献传递
- 基于法律文本的藏语句子边界识别
- 由于传统藏语书写中标点符号的特殊性,在藏语句子中如何找到正确的句子边界,是正确识别句子的首要问题。本文通过对藏语法律文本语料的观察,利用规则提出了一个藏语句子边界的识别算法。同时对藏语法律文本的句式特点进行初步的分析和探...
- 赵维纳刘汇丹于新吴健张普
- 关键词:断句藏文信息处理中文信息处理
- 文献传递
- 基于词典的汉藏句子对齐研究与实现被引量:10
- 2011年
- 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
- 于新吴健洪锦玲
- 关键词:词典平行语料库藏文信息处理
- 基于词典的汉藏句子对齐研究与实现
- 双语语料库加工的关键技术之一是对齐.构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性。提出基于词典的汉藏句子对齐。整理了对齐所用双语词典.并对其词语覆盖率进行了评...
- 于新吴健洪锦玲
- 关键词:藏文信息处理句子对齐双语语料库
- 文献传递
- 现代藏语助动词结尾句子边界识别方法被引量:7
- 2013年
- 藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
- 赵维纳于新刘汇丹李琳王磊吴健
- 关键词:中文信息处理