董晓芳
- 作品数:4 被引量:9H指数:2
- 供职机构:西北民族大学更多>>
- 发文基金:国家科技支撑计划甘肃省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于短语的藏汉统计机器翻译系统被引量:6
- 2012年
- 本文针对藏文词法及句法的特点,借助开源统计机器翻译平台,搭建起基于短语的藏汉统计机器翻译系统,重点描述了系统中的藏文编码转换和藏文自动分词的实现方法。最后采用500句新闻领域藏文语料对翻译系统进行测试,取得了Bleu值为0.3425的较好结果。
- 董晓芳曹晖江涛
- 关键词:统计机器翻译自动分词
- 藏汉统计机器翻译短语抽取技术研究
- 统计机器翻译包括两个模型的训练,其中短语翻译模型训练中的关键步骤是双语短语对的提取。怎样提取到准确和足够多的双语短语对成为研究的重点。Och短语抽取算法是以大规模的双语平行语料为代价来平衡准确率和召回率,而藏汉平行语料规...
- 董晓芳
- 关键词:统计机器翻译短语抽取语言模型翻译模型
- 文献传递
- 中学藏语文教材词汇计量统计分析
- 2012年
- 文章对五省(区)藏语文编写委员会编著的初中和高中藏语文教材词汇进行计量统计,包括分体裁用词统计及课文正文用词统计两部分,统计项目包括分体裁词条统计、分册词条、词总、独用词统计、分频段统计等,并对统计数据进行分析说明,为客观评价初、高中教材提供定量标准,为中学阶段的藏文制定量化词汇教学目标提供依据,为今后更好地提高藏语文中学教材的编写质量奠定一定的基础。
- 曹晖韩小斌董晓芳
- 关键词:词汇计量统计
- 藏文报纸词语统计研究被引量:1
- 2012年
- 当前,我国的社会语言生活空前活跃,全面准确地把握语言生活的动态显得十分必要而紧迫.藏族的语言生活是我国社会语言生活的一部分,对于藏语语言生活的调查研究也显得十分重要.通过对平面媒体2010年度四种藏文报纸语料的词语进行分析研究,了解2010年藏文词语的词种、各媒体的独用词种、共用词种、词语覆盖率以及高频词和新词语的使用状况.文章对四种报纸词语的统计研究,不仅可以了解藏文报纸中藏文词汇的使用情况,同时也能根据高频词的统计在一定程度上反映出藏族地区的热点话题、民族风情及发生的重大事件.
- 曹晖董晓芳孟祥和
- 关键词:高频词独用新词