福建省自然科学基金(2006J0043) 作品数:11 被引量:47 H指数:3 相关作者: 史晓东 陈毅东 蔡骏 刘勇进 林茜 更多>> 相关机构: 厦门大学 西北民族大学 更多>> 发文基金: 福建省自然科学基金 国家自然科学基金 国家留学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
厦门大学第四届全国机器翻译研讨会评测系统描述 本文描述了厦门大学智能科学与技术系参加第四届全国机器翻译研讨会机器翻译评测的系统。文章分别对参加评测的各翻译系统的概况以及所使用的系统融合技术做了介绍,并详细描述了参与测计中的数据配置情况和结果。 陈毅东 史晓东 周昌乐关键词:统计机器翻译 文献传递 Automatic Partition of Chinese Sentence Group 被引量:3 2010年 Automatic partition of Chinese sentence group is very important to the statistical machine translation system based on discourse. This paper presents an approach to this issue: first, each sentence in a discourse is expressed as a feature vector; second, a special hierarchical clustering algorithm is applied to present a discourse as a sentence group tree. In this paper, local reoccurrence measure is proposed to the selection of key phras and the evaluation of the weight of key phrases. Experimental results show our approach promising. 陈怡疆 史晓东 周昌乐利用人类计算技术的语音语料库标注方法及其实现 被引量:2 2009年 提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注. 沈映泉 刘勇进 蔡骏 史晓东引入复述技术的统计机器翻译研究综述 被引量:6 2013年 基于对引入复述技术的统计机器翻译研究现状的分析,提出具有研究价值的课题方向.首先归纳了复述的概念,总结了引入复述技术的统计机器翻译各类方法.然后对复述知识在统计机器翻译中的模型训练、参数调整、待译语句改写和机器翻译自动评测等方面应用的主流方法进行了概括、比较和分析,说明了复述与统计机器翻译是紧密相关的,强调了复述在统计机器翻译应用中的关键问题是复述的正确性和多样性.最后指出提高复述资源的精确度、建立复述与机器翻译的联合模型、采用新方法解决稀疏问题等是有待进一步研究的课题. 胡金铭 史晓东 苏劲松 陈毅东关键词:机器翻译 统计机器翻译 基于话题分布相似度的无监督评论词消歧方法 被引量:2 2013年 基于话题信息、词的位置关系和互信息等特征,提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎,通过上下文信息选择评论句中多义评论词的词义。实验结果表明,所提出的词义消歧算法具有较高准确率,对于具有较多候选词义的评论词仍能表现出较好的性能。 郭瑛媚 史晓东 陈毅东 高燕一种用于说话人性别鉴定的混合算法 被引量:1 2008年 提出一种用于语音识别的性别鉴定的算法,算法融合基音频率鉴定法和隐马尔可夫模型(HMM)鉴定法的混合算法。循环幅度差函数用于检测基音频率,HMM鉴定法建立男女两个HMM,用Viterbi算法将输入语音匹配到这两个模型,用匹配结果鉴定性别,基于这两种方法设计了一个线性分类器,在TIMIT、HTIMIT和南方口音语料库上采用1s长的语音片段进行测试,达到98.54%的正确率。将该算法应用于连续语音识别前端,较大提高了识别精度。 黄关维关键词:性别鉴定 基音检测 隐马尔可夫模型 连续语音识别 央金藏文分词系统 被引量:30 2011年 藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。 史晓东 卢亚军关键词:藏文分词 自然语言处理 HMM 基于GMM的声音活动检测方法 被引量:1 2009年 为了提高声音活动检测的鲁棒性,提出了一种基于GMM模型的声音活动检测方法。此方法在频谱特征空间中建立背景噪音和语音的GMM模型,然后采用模型匹配的方法对被测信号进行区分。此方法自适应更新GMM模型的参数,使之可以适应环境的变化。实验结果显示该方法在噪音环境中比传统的声音活动检测方法具有更高的准确率。 陈奇川 蔡骏 林茜关键词:参数自适应 语音识别 新闻领域双语语料建设与句子对齐方法的研究 2008年 双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节。文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐。 林哲辉 贾剑锋 郭文关键词:双语语料库 对齐 机器翻译 基于层次聚类的中文词义归纳(英文) 被引量:1 2010年 词义归纳的目标是在一个语料库中自动识别多义词的语义,使用词义比单纯的使用词形能够改善信息检索、信息抽取和机器翻译的结果。无监督的词义归纳可以看成一个聚类问题,在本论文我们使用层次聚类的方法来解决词义归纳问题。实验证明,该系统可以达到72%的F-Score。 蔡科 史晓东 陈毅东 黄哲煌关键词:层次聚类算法