龙从军
- 作品数:47 被引量:112H指数:7
- 供职机构:中国社会科学院民族学与人类学研究所更多>>
- 发文基金:国家自然科学基金国家社会科学基金中国社会科学院创新工程项目更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 我国民族语言数据和语言知识服务的理念及实现途径
- 2024年
- 民族语言数据和语言知识服务在人文社会研究、民族传统科技、文化保护传承以及中华文化基因探索方面发挥着重要作用。本文以民族语言数据与知识服务为出发点,构建了面向民族语言文化研究的专业数据资源和系列知识库。利用数字人文技术把民族语言学界的重要文献数据进行数字化处理,利用知识图谱技术把各领域知识关联起来,形成文献检索和知识服务平台,按照民族语言词典类、语言简志类、濒危语言类、语法标注类、参考语法类、论文类和其他类收录数据,文献数据库收入文献150多部,关联各民族语言中的语法范畴概念200多个,并对格范畴知识关联结果进行了分析。初步研究发现,民族语言数据的准确性、一致性和规范性值得关注;我国民族语言类型十分丰富,语言的多样性承载了文化的多样性,语言知识的关联性揭示了各民族语言文化之间的共性和差异,启发研究者对民族语言间的亲属关系和文化互鉴进行思考和探索。
- 龙从军
- 关键词:语言知识格范畴知识服务
- 深度学习在汉藏机器翻译中的应用研究
- 该文将深度学习技术应用于汉藏机器翻译任务中,采用了编码器-解码器结构.在编码阶段,首先将汉语句子中的每个词映射为定长的词向量,并通过循环神经网络压缩整个句子的全部信息.在解码过程中引入注意机制,使得解码器更集中的去注意当...
- 李博涵刘汇丹龙从军吴健
- 关键词:机器翻译
- 基于错误驱动学习策略的藏语句法功能组块边界识别被引量:7
- 2014年
- 藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18 073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。
- 王天航史树敏龙从军黄河燕李琳
- 关键词:CRFSTBL
- 基于多策略的藏语语义角色标注研究被引量:3
- 2014年
- 语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。
- 龙从军康才畯李琳江荻
- 关键词:藏语语义角色标注TBLCRFS
- 汉—藏人名用字音译规则研究被引量:3
- 2018年
- 随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。
- 龙从军豆格才让刘汇丹
- 藏语判断、存在动词识别策略被引量:2
- 2013年
- 判断动词与存在动词在藏语中使用频度高,兼类现象频繁,在不同语境下具有不同的含义。既可以表示判断、存在和领有意义,也可作为语法标记表达复杂的体貌、示证意义。判断、存在动词的多功能性给藏文文本分词标注、句型识别等工作带来较大的困难。借助藏语语法的研究成果和真实藏文文本,我们对这两类词的上下文语境进行了分析和归纳,进而提出了辨别这两类词的方法。首先,考察判断动词和存在动词在不同语境下的左右特征词;然后,建立了识别规则库,从肯定与否定两个方面判别其词性并标注。
- 李琳龙从军
- 关键词:藏语判断动词存在动词自动识别
- 基于深度学习的藏文分词方法被引量:15
- 2018年
- 重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。
- 李博涵刘汇丹龙从军吴健
- 关键词:藏文分词循环神经网络
- 藏语方式状语的语义类型与句法标记被引量:2
- 2014年
- 藏语的方式状语与动词的关系最为密切,语义丰富,表现形式多样;句法标记与不同语义之间存在一定的对应关系,这种关系便于句法语义自动标注。本文概括了藏语方式状语的七种语义类型,并对每种类型的句法标记作了具体分析。
- 康才畯龙从军
- 关键词:语义类型句法语义状语藏语
- 基于藏语字性标注的词性预测研究
- 本文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.07...
- 龙从军刘汇丹诺明花吴健
- 关键词:藏语分词词性标注
- 双语对齐语料的加工方法及装置
- 本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文...
- 刘汇丹龙从军诺明花安波吴健
- 文献传递