姜子进
- 作品数:3 被引量:1H指数:1
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- Web环境下自动获取汉、维语料库被引量:1
- 2011年
- 句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文。对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务。
- 姜子进吐尔根.依布拉音赛依旦.阿不力米提田生伟
- 关键词:双语平行语料库正文提取
- 网络环境下自动获取汉维句子翻译对的研究
- 双语平行句对是机器翻译的重要资源,但目前的双语平行语料库大多是篇章级的,句子级的平行语料库不仅数量有限,而且多集中在特定领域,很难适应真实应用的需求。本文就研究怎样在网络环境下获取双语平行句对,创建句子级的双语平行语料库...
- 姜子进吐尔根·依布拉音
- 关键词:双语平行语料库机器翻译
- 文献传递
- 网络环境下自动获取汉维句子翻译对的研究
- 双语平行句对是机器翻译的重要资源,但目前的双语平行语料库大多是篇章级的,句子级的平行语料库不仅数景有限,而且多集中在特定领域,很难适应真实应用的需求。本文就研究怎样在网络环境下获取双语平行句对,创建句子级的双语平行语料库...
- 姜子进吐尔根·依布拉音
- 关键词:双语平行语料库机器翻译
- 文献传递