新疆维吾尔自治区高校科研计划(XJEDU2011S42)
- 作品数:4 被引量:4H指数:1
- 相关作者:张亚军贺琛琛刘源香丽芸吴晓林更多>>
- 相关机构:昌吉学院新疆大学更多>>
- 发文基金:新疆维吾尔自治区高校科研计划国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于词干的混合策略维吾尔语文本聚类特征选择方法研究被引量:2
- 2012年
- 维吾尔语文本聚类中特征选择对聚类的效率和效果都有直接影响。根据维吾尔语构词法规律,在原有基于文档频率特征选择算法基础上,提出新的维吾尔语文本聚类的特征提取算法。新方法将词干作为文本的特征项,在原算法上融合了基于特征贡献度的选择方法,并使用Java语言实现了一个维吾尔语文本聚类系统。使用该系统在人工分类的文本集上进行实验,结果表明:新的特征提取算法有效地降低了文本向量空间维度,在准确率、召回率和F-Measure等指标方面均有不同程度提高。
- 刘源吐尔根.依布拉音阿力木江.艾沙张亚军
- 关键词:文本聚类维吾尔语
- 汉语-维吾尔语的一对一词对齐研究被引量:1
- 2012年
- 描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。
- 张亚军贺琛琛
- 关键词:词对齐
- 限定领域的汉语-维吾尔语句子级对齐研究被引量:1
- 2014年
- 针对政府文献的汉语维吾尔语语料库特点,充分利用汉语和维吾尔语的句子特性,提出一种汉维句子级别的对齐方法。该方法重点分析政府领域的汉语和维吾尔语的句型,分别对汉语和维吾尔语的语料进行边界识别,避免了复杂句型对汉语-维吾尔语句子对齐的影响,使得该方法取得句子对齐达到97%与99%之间的正确率。对齐的汉语-维吾尔语句子对可以充实语料库的规模,为汉语-维吾尔语短语对齐以及汉维机器翻译提供翻译语料。
- 张亚军贺琛琛香丽芸
- 关键词:平行语料库句子对齐机器翻译句子边界识别
- 浅谈新疆多语种智能化研究现状
- 2014年
- 针对新疆地区的多语种发展现状做出介绍,涉及到维哈柯语料库、机器翻译、维吾尔语语音识别等领域,重点介绍新疆多语种智能化研究机构以及各机构的主要研究方向和内容。
- 张亚军吴晓林贺琛琛
- 关键词:语料库多语种