梁建飞
- 作品数:4 被引量:2H指数:1
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于Web的双语平行网页自动获取技术的研究现状及分析
- 本文首先对机器翻译、平行语料库等相关知识做了简单论述,然后以获取双语平行网页的四个步骤为主线,对各个阶段所采取的研究方法做了全面而详细的介绍并加入一些个人的想法,接着对现有的六大典型系统做了简单介绍并加以分析比较,最后提...
- 梁建飞吐尔根·依布拉音
- 文献传递
- 基于Web的双语平行网页自动获取技术的研究现状及分析
- 本文首先对机器翻译、平行语料库等相关知识做了简单论述,然后以获取双语平行网页的四个步骤为主线,对各个阶段所采取的研究方法做了全面而详细的介绍并加入一些个人的想法,接着对现有的六大典型系统做了简单介绍并加以分析比较,最后提...
- 梁建飞吐尔根·依布拉音
- 文献传递
- 网络环境下获取汉维篇章级平行语料的研究
- 汉维双语平行语料库是开发汉维统计机器翻译系统的重要资源,然而现有的汉维双语平行语料库还不能满足实际需要,主要原因是语料库规模小、时效性和领域平衡性差。为了改善这种状况,本文在网页下载、网页去噪和平行文本识别方面作了研究,...
- 梁建飞
- 关键词:网页下载网页去噪
- 文献传递
- 汉维主题网页自动获取技术的研究被引量:2
- 2012年
- 为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阈值的源码块。针对汉维网页做了实验,实验结果表明,算法在设置合适的阈值的情况下良好率达到90%以上。
- 梁建飞吐尔根.依布拉音田生伟赛依旦.阿不力米提
- 关键词:主题信息