田垚
- 作品数:4 被引量:42H指数:3
- 供职机构:清华大学电子工程系更多>>
- 发文基金:国家自然科学基金北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统被引量:21
- 2017年
- 在低资源条件下,由于带标注训练数据较少,搭建的语音识别系统性能往往不甚理想。针对此问题,首先在声学模型上研究了长短时记忆(LSTM)递归神经网络,通过对长序列进行建模来充分挖掘上下文信息,并且引入线性投影层减小模型参数;然后研究了在特征空间中对说话人进行建模的技术,提取出能有效反映说话人和信道信息的身份认证矢量(i-vector);最后将上述研究结合构建了基于i-vector特征的LSTM递归神经网络系统。在Open KWS 2013标准数据集上进行实验,结果表明该技术相比于深度神经网络基线系统有相对10%的字节错误率降低。
- 黄光许田垚康健刘加夏善红
- 关键词:语音识别
- 基于深度神经网络和Bottleneck特征的说话人识别系统被引量:13
- 2016年
- 近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。
- 田垚蔡猛何亮刘加
- 关键词:说话人识别
- 低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统被引量:9
- 2015年
- 语音识别系统需要大量有标注训练数据,在低数据资源条件下的识别性能往往不理想.针对数据匮乏问题,本文先研究子空间高斯混合声学模型通过参数共享减少待估计的参数规模,并使用基于最大互信息准则的区分型训练技术提高识别精度;而后在特征层面应用基于深度神经网络的Bottleneck特征来达到特征提取和降维的目的;最后将上述研究成果结合并构建了低资源条件下的语音识别系统.在国际标准的Open KWS 2013数据库上的实验结果表明,本文的技术能够有效改善低资源条件下的系统识别性能,相比基线系统有12%左右的词错误率降低.
- 吴蔚澜蔡猛田垚杨晓昊陈振锋刘加夏善红
- 关键词:语音识别声学模型声学特征
- 说话人识别中基于音素分类的数据选择方法
- 2014年
- 在说话人识别中,有效语音数据的选择是一个重要的预处理环节.常用的数据选择方法根据能量信息的强弱对有效数据进行提取,但在实际情况中能量的高低与语音数据并无必然联系.本文在对传统方法进行分析比较的同时引入语言学知识,提出基于辅音信息的有效数据选择方法.该方法通过对活动语音检测结果中音素识别结果进行分析,保留所有元音,对辅音进行筛选,去除无益于说话人识别的干扰辅音音素,从而实现对有效语音数据的选取.实验表明,应用该方法得到的说话人识别结果,明显优于传统的基于能量的数据选择算法,如基于G.723.1标准的活动语音检测算法和近期提出的基于交叉熵顺序统计滤波的端点检测算法.
- 吴蔚澜张卫强刘巍巍田垚陈振锋刘加夏善红
- 关键词:说话人识别有效数据辅音