加羊吉
- 作品数:17 被引量:87H指数:7
- 供职机构:西北民族大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 基于条件随机场的藏语自动分词方法研究与实现被引量:27
- 2013年
- 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。
- 李亚超加羊吉宗成庆于洪志
- 关键词:条件随机场格助词
- 一种基于改进卡方统计量的藏文文本表示方法
- 文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度,或者只是简单的计算相互问的共现,造成了语义的损失,很难准确的表示...
- 徐涛于洪志加羊吉
- 统计与规则相结合的藏文人名自动识别研究被引量:9
- 2010年
- 提出了一种基于统计与规则相结合的藏文人名自动识别方法。该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述。根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题。实验结果表明,该方法具有较高的准确率和召回率。
- 窦嵘加羊吉黄伟
- 关键词:互信息格助词
- 藏语新词语调查研究
- 2010年
- 藏语是藏民族通用的语言,是藏族人民最重要的交际工具.随着社会的发展、时代的变革,藏语中出现了大量表达新事物、新现象和新观念的新词语.文章根据新词语的特征和藏语构词法,对新词语的类型、构成方式、词长和词性等进行考查研究.
- 加羊吉达哇彭措
- 关键词:藏语新词语外来词
- 面向互联网的藏文实体关系模板获取技术研究被引量:1
- 2015年
- 确定实体之间的关系有助于更好的理解文本内容,通过实体关系模板可以从海量无结构的文本中获取大量的实体关系,并予以结构化.本文针对互联网藏文文本的特点,通过对藏文实体进行模板表示,采用基于word2vec的无监督词义相似度计算方法,构建近义词资源,实现了藏文词义相似度计算系统,最终构建一种基于相似度计算的实体关系模板获取模型.通过网络爬虫抓取青海湖藏文网的语料进行试验,实验结果表明本文提出的藏文实体关系模板抽取方法较为有效,达到了较好的实验效果.
- 马宁李亚超于槐加羊吉
- 关键词:藏文互联网
- CRF与规则相结合的藏文人名识别方法被引量:1
- 2016年
- 文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55.
- 加羊吉李亚超于洪志
- 关键词:CRF模型
- 基于改进卡方统计量的藏文文本表示方法被引量:4
- 2014年
- 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。
- 徐涛于洪志加羊吉
- 关键词:藏文信息处理文本表示向量空间模型
- 基于多特征的藏文微博情感倾向性分析被引量:8
- 2017年
- 中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。
- 江涛袁斌于洪志加羊吉
- 关键词:情感倾向
- TIP-LAS:一个开源的藏文分词词性标注系统
- TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,TIP-LAS...
- 李亚超江静加羊吉于洪志
- 关键词:分词词性标注条件随机场最大熵
- TIP-LAS:一个开源的藏文分词词性标注系统被引量:25
- 2015年
- TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。
- 李亚超江静加羊吉于洪志
- 关键词:分词词性标注条件随机场最大熵