史永哲
- 作品数:4 被引量:16H指数:2
- 供职机构:清华大学电子工程系更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划更多>>
- 相关领域:电子电信更多>>
- 基于扩展N元文法模型的快速语言模型预测算法被引量:6
- 2012年
- 针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度.
- 单煜翔陈谐史永哲刘加
- 关键词:语音识别解码
- 联合因子分析中的本征信道空间拼接方法被引量:8
- 2011年
- 为了使联合因子分析适用于多种信道条件下的文本无关说话人识别,提出了一种本征信道空间的正交拼接法.在多信道条件下,可以通过混合数据法或简单拼接法估计本征信道空间,但前者存在空间掩盖,后者虽解决了空间掩盖但引入了空间重叠.本文首先证明说话人建模和测试的核心运算是斜投影,基于上述证明,通过将待拼接空间正交的方法移除了空间重叠.在NISTSRE2008核心评测数据库上的实验表明,本文所提算法优于混合数据法和简单拼接法.
- 何亮史永哲刘加
- 关键词:说话人识别
- 大规模词表连续语音识别引擎紧致动态网络的构建被引量:1
- 2012年
- 大规模词表连续语音识别系统需要综合各种知识源,如声学模型、语言模型、发音词典等。其中,解码网络是识别引擎的基础,对提高解码器的性能有着至关重要的影响。有效综合这些知识源,构建一个紧致的解码网络,可以有效减少识别时的搜索空间和重复计算,显著提高解码速度。该文针对语音识别的动态解码网络进行研究,提出了词标志(word end,WE)节点前推算法,结合传统的前后向合并算法,实现了一个基于隐Markov模型状态为网络节点的紧凑动态解码网络。优化后的解码网络的节点数和边数分别是线性词典解码网络的1/4,是开源工具包HDecode的1/2;需要计算语言模型预测分数的节点数为HDecode的1/2。该声学模型基于三音子建模,可方便地移植到其他语种上。
- 刘加陈谐单煜翔史永哲
- 关键词:语音识别声学模型
- 基于JSM和MLP改进发音错误检测的方法被引量:1
- 2014年
- 针对发音错误检测的发音字典生成提出基于联合序列多阶模型(Joint-sequence multi-gram,JSM)和多层神经感知(Multi-layer perception,MLP)的方法.首先使用JSM模型对发音错误进行建模,将标准发音和错误发音组合为发音对,表示它们之间的对应关系,再使用N元文法来统计各发音对之间的关系,描述错误发音对上下文关系的依赖.最后使用MLP对发音对之间的关系进行重新建模,以学习到在相似的上下文条件下发生的相似的错误.实验证明使用MLP对高阶模型进行概率重估能有效的平滑概率空间,提高了发音错误检测的性能.
- 袁桦史永哲赵军红刘加
- 关键词:发音错误检测计算机辅助语言学习