公共文化服务平台

共 9 条记录，以下是 1-9

全选清除导出

排序方式：

统计与规则并举的汉语词性自动标注算法被引量：29: 1998年; 本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法．本算法引入置信区间的概念，优先采用高准确率的定量统计分析技术，然后利用规则标注剩余语料和校正部分统计标注错误．封闭和开放测试表明，在未考虑生词和汉语词错误切分的情况下，本算法的准确率为９８．９％和９８．１％．; 张民李生赵铁军张艳风; 关键词：汉语词性标注语言信息处理

CEMT—Ⅲ系统中汉语兼类问题的处理被引量：3: 1993年; 汉语中词的兼类是一个普遍存在的现象。任何工程化的汉语句法分析系统都不能回避这个重要而难以解决的歧义问题。本文根据汉英机器翻译系统CEMT—Ⅲ的有2万词条的机器词典进行了统计,其中兼类词占7.7％,刪CEMT—Ⅲ系统采用多级渐进处理策略,将确定性推理和非确定性推理相结合,实现了汉语词的兼类自动消除机制。; 赵铁军毛成江张民李生; 关键词：机器翻译汉语英语

大规模汉语语料库中任意n的n-gram统计算法及知识获取方法被引量：6: 1997年; 本文提出并实现了一种大规模汉语语料库中字、词级任意ｎ的ｎ－ｇｒａｍ统计算法，本算法可以一次性统计出所有不大于任意ｎ（本文ｎ取为２５６）的字、词级ｎ－ｇｒａｍ，可将传统ｎ－ｇｒａｍ统计时的指数空间开销变为线性的，且与所统计的元数无关。基于这种ｎ－ｇｒａｍ的统计，本文还进行了汉语信息熵的计算及字、词级知识获取的研究。; 张民李生赵铁军; 关键词：N元语法知识获取汉语语料库

基于评价的汉语词性纯概率标注算法被引量：4: 1998年; 文中引入数理统计中“置信区间”的概念，提出并实现了一种基于“置信区间”评价函数的汉语词性纯概率标注算法．测试表明，本算法可以保证在具有一定召回率的同时，具有可界定的高的消歧率．当消歧率为９４．８％时，召回率可达８１．５％．; 张民李生赵铁军; 关键词：词性标注自然语言处理汉语词性

汉英双向机器翻译系统BT863的研究与实现被引量：8: 1997年; 本文将经验主义方法与传统的基于规则的理性主义体系结合起来，提出了一种面向实例、基于模式的机器翻译路线，并在这一翻译路线的指导下，以分析与生成一体、面向生成为基本实现策略，实现了一个面向汉英日常用语的汉英双向机器翻译系统ＢＴ８６３。; 王海峰李生赵铁军杨彦荀恩东张民; 关键词：机器翻译

CEMT－Ⅲ汉英机器翻译系统的研究被引量：2: 1994年; 本文论述了ＣＥＭＴ－Ⅲ型汉英机器翻译系统的理论设计和实现情况，主要阐述了系统的语言模型、总体结构和设计思想，以及系统在开发实践过程中所遇到的语言学工程和计算机知识处理等方面的问题及其解决办法，并对系统的各个组成部分的设计原理和技术特点做了详细描述。; 张民李生赵铁军周明邱祥辉毛成江; 关键词：翻译机

基于知识评价的快速汉语自动分词系统被引量：12: 1996年; 汉语自动分词是中文信息处理的首要工作。衡量一个分词系统性能优劣指标主要有两个，一个是切分的速度，一个是切分的精度。本文提出的基于知识评价的汉语自动分词算法，可大大提高系统的切分速度，而且利用基于复杂特征集的规则、模式等可处理掉大部分切分歧义。最后，本文对消歧提出了一些设想。; 张民李生王海峰赵铁军王铁志; 关键词：汉语自动分词歧义信息处理

基于同步树序列替换文法的统计机器翻译模型被引量：2: 2009年; 基于短语的模型是目前发展相对成熟的一种统计机器翻译(Statistical machine translation,SMT)模型.但基于短语的模型不包含任何结构信息,因而缺乏有效的全局调序能力,同时不能对非连续短语进行建模.基于句法的模型因具有结构信息而具有解决以上问题的潜力,因而越来越受到研究者们的重视.然而现有的大多数基于句法的模型都因严格的句法限制而制约了模型的描述能力.为突破这种限制并将基于短语的模型的优点融入到句法模型中,本文提出一种基于同步树序列替换文法(Synchronous tree sequence substitution grammar,STSSG)的统计机器翻译模型.在此模型中,树序列被用作为基本的翻译单元.在这种框架下,不满足句法限制的翻译等价对和满足句法限制的翻译等价对都可以融入句法信息并被翻译模型所使用.从而,两种模型的优点均得到充分利用.在2005年度美国国家标准与技术研究所(NIST)举办的机器翻译评比的中文翻译任务语料上的实验表明,本文提出的模型显著地超过了两个基准系统:基于短语的翻译系统Moses和一个基于严格树结构的句法翻译模型.; 蒋宏飞李生张民赵铁军杨沐昀; 关键词：统计机器翻译句法限制

全选清除导出

共1页<1>

张民