国家自然科学基金(61271389) 作品数:4 被引量:20 H指数:2 相关作者: 郑方 王东 艾斯卡尔·肉孜 张陈昊 张之勇 更多>> 相关机构: 清华大学 新疆大学 中国建设银行 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于PLAR的说话人确认系统的噪音鲁棒性 被引量:2 2013年 针对Mel频率倒谱系数(Mel frequency cepstralcoefficient,MFCC)特征的说话人确认系统在干净语音环境下具有很高识别率但在噪音环境下识别率急剧下降的缺点,构建了基于感知对数面积比系数(perceptual log area ratio,PLAR)特征的说话人确认系统,并对该系统的噪音鲁棒性进行研究。结果表明:PLAR特征具有较强的噪音鲁棒性。将PLAR与MFCC进行特征域和分数域的融合,利用两者之间存在着的互补性,可有效提高说话人确认系统的识别性能。 尹聪 白静 龚宬 张陈昊 郑方 Waleed H.Abdulla关键词:说话人确认 鲁棒性 说话人识别中的分数域语速归一化研究 语速变化将导致语音频谱畸变,进而导致说话人识别系统性能显著下降。本文提出一种分数域归一化方法来降低语速变化对说话人识别系统的影响。在全局归一化算法中,不同语速语音的语音数据组成一个全局参考集合,对每一个登入的说话人估计该... 艾斯卡尔·肉孜 王东 李蓝天 郑方 张晓东 金磐石关键词:说话人识别 文献传递 基于多音素类模型的文本无关短语音说话人识别 被引量:1 2013年 对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。 张陈昊 郑方 王琳琳关键词:语音识别 说话人识别中的分数域语速归一化 被引量:4 2018年 语速变化导致说话人识别系统性能显著下降。该文提出一种分数域语速归一化方法来降低语速变化对说话人识别系统的影响。由不同语速语音数据组成参考集(全局和局部),对每一个登入说话人估计其对参考集中每一类参考语音的分数分布,局部参考集通过按相对语速划分全局参考集而获得。基于该文录制的语速数据库在GMM-UBM(Gaussian mixture model-universal background model)框架下对测试语音进行分数归一化,并通过训练数据扩展有效解决了数据系数问题,最终等错误率相对下降33.33%。研究结果表明:全局和局部归一化方法都有效减少了语速变化对说话人识别系统的影响。 艾斯卡尔·肉孜 王东 李蓝天 郑方 张晓东 金磐石关键词:说话人识别 THUYG-20:免费的维吾尔语语音数据库 被引量:13 2017年 语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。 艾斯卡尔·肉孜 殷实 张之勇 王东 艾斯卡尔·艾木都拉 郑方关键词:语音识别 维吾尔语 语料库