文茂平
- 作品数:4 被引量:4H指数:1
- 供职机构:云南大学信息学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:电子电信自动化与计算机技术更多>>
- 一种面向语音识别的三元文法语言模型被引量:1
- 2005年
- 在语音识别系统中,语言模型是其中不可或缺的,以先验概率的形式发挥重要作用.而在大词汇量非特定人的连续语音识别中,又以基于统计的语言模型应用最为广泛.研究首先讨论基于词的语言模型和基于词类的语言模型的统计计算方法,然后针对互联网上的新闻、科技、小说等题材的语料使用HTK语言模型工具采用以上两种方法构建一个面向语音识别的语言模型.实验结果表明,该语言模型比单独的基于词的和基于词类的语言模型有更高的性能.
- 文茂平李雪涛杨鉴
- 关键词:连续语音识别语言模型HTK
- 基于Web网页语料构建动态语言模型被引量:3
- 2006年
- 为语音识别系统构建语言模型,首先要进行语料准备,语料来源决定语言模型的性能。Web网页中涵盖了各种最新的语言现象,为语料准备提供了最多样化的资源。但Web网页中语义完整字串通常夹杂在格式、标记、广告等无用字串中。首先介绍语言模型的训练算法和更新方法,继而提出一种从HTML文档提取用于训练语言模型的语义完整汉字字串的算法,最后给出语料提取实验结果、语言模型训练结果和语言模型的动态更新结果。为基于Web网页语料动态更新语言模型提供了一个完整的解决方案。
- 李雪涛文茂平杨鉴
- 关键词:语言模型语料库信息提取