公共文化服务平台

基于后验概率词格的汉语自然对话语音索引被引量：2: 2008年; 语音索引是语音检索任务的关键问题之一。该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法。采用后验概率形式表示的词格取代最优路径进行索引。根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9%、4.4%和7.4%。根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3%(用LV SCR得到的)和66.9%(用音节识别器得到的)提高到78.8%。; 孟莎余鹏Frank Seide刘加; 关键词：语音检索

基于多路线性预测技术的时延估计被引量：2: 2011年; 很多麦克风阵列时延估计算法在噪声和混响环境下性能都会下降。该文提出一种基于多路线性预测(multi-ple linear prediction,MLP)的时延估计算法。通过传递函数比估计来消除通道间传递函数的非对称性,提高信号相关程度;空间预测技术引入了阵列冗余信息,并以相关系数矩阵作为时延搜索的目标函数,提高时延估计的可靠性。实验结果显示了多路线性预测算法的估计准确率更高,性能更加稳健。与几种经典算法相比,在噪声和混响环境下MLP算法的估计正确率分别提高了5%和30%以上。; 宋辉杨毅刘加; 关键词：麦克风阵列时延估计

基于广义奇异值分解的通用旁瓣消除算法被引量：6: 2011年; 提出一种新的通用旁瓣消除器结构,它利用广义奇异值分解(Generalized singular value decomposition,GSVD)技术,通过广义奇异向量的变换间接估计声源到麦克风之间的传递函数。不同噪声环境下的实验结果表明,与现有的各种GSC算法相比,该算法能够更有效地抑制混响和噪声,并且增强后的语音失真最小。; 宋辉刘加; 关键词：麦克风阵列语音增强噪声消除广义奇异值分解

基于区分性向量空间模型的语种识别: 传统的语种识别方法是利用不同语种中音素组合关系不同来进行语种识别,但是并非所有音素组合都具有显著的语种间区分性信息,只有少量关键音素组合起决定性作用。为此本文提出了利用区分性向量空间模型对各语种中关键音素组合进行建模的语...; 邓妍张卫强刘加; 关键词：语种识别互信息; 文献传递

一个基于哼唱的歌曲检索系统被引量：2: 2009年; 研究了基于哼唱的歌曲检索算法,提出了一个完整的哼唱检索框架,由特征提取模块、歌曲模板库模块、旋律匹配模块组成。为改善系统性能,在旋律提取部分采用基于小波变换的基音提取方式,旋律匹配模块在对传统的动态时间弯折进行分析后,对之进行了改进。在548首歌曲的测试集上,该系统的识别效果达到89.1%。; 郭敏刘加; 关键词：哼唱检索基音提取

English Speech Recognition System on Chip: 2011年; An English speech recognition system was implemented on a chip, called speech system-on-chip （SoC）. The SoC included an application specific integrated circuit with a vector accelerator to improve performance. The sub-word model based on a continuous density hidden Markov model recognition algorithm ran on a very cheap speech chip. The algorithm was a two-stage fixed-width beam-search baseline system with a variable beam-width pruning strategy and a frame-synchronous word-level pruning strategy to significantly reduce the recognition time. Tests show that this method reduces the recognition time nearly 6 fold and the memory size nearly 2 fold compared to the original system, with less than 1% accuracy degradation for a 600 word recognition task and recognition accuracy rate of about 98%.; 刘鸿钱彦旻刘加; 关键词：SYSTEM-ON-CHIP

语种识别中基于局部多样性建模的向量空间模型被引量：1: 2011年; 针对语种识别中大规模数据库的训练问题,提出一种基于局部多样性建模的向量空间模型。首先将训练数据库分成若干个小数据库,然后利用每个小数据库来训练不同的向量空间模型,最后对不同的模型进行加权组合。为了有效地对不同模型进行组合,需要对模型的加权系数进行优化。对模型组合算法从理论上进行推导,在模型权重与分数线性融合系数之间建立起对应的数学关系,并提出采用逻辑回归方法对不同模型的权重进行估计。在美国国家标准技术局(NIST)2009年度语种识别测试库上的实验结果表明:所提方法不仅能够处理大规模的训练数据,而且相比传统方法识别性能也有了一定程度的提高,系统的等错误率在30 s、10 s和3 s的测试条件下分别下降了8.44%、5.91%以及3.45%。; 邓妍张卫强刘加; 关键词：语种识别向量空间模型逻辑回归

说话人确认技术中的一种分类器选择方法: 2010年; 目前主流的说话人确认系统一般包括若干个分类器,或称子系统,通过对各分类器输出分数的融合得到最终的识别结果。该文针对说话人确认系统线性分数融合中的分类器筛选问题,提出了最小矢量角(VAM)筛选准则,将各分类器得到的分数拼接成矢量,在分数矢量空间中考察各矢量的几何学关系,然后选取一个最优的矢量子集,使得它们经过线性组合能够与实际情况对应的参考矢量夹角最小。为了控制搜索规模,在分类器选取方案的优化中,采用模拟退火算法得到近似最优解。实验结果表明,基于VAM的分类器选择可以在降低所需分类器数目的同时提高系统的性能。较之依据单分类器性能最优准则选择分类器,在选择分类器数量n=16的情况下,系统等错误率相对下降15%。; 侯韬刘加; 关键词：说话人确认分类器选择模拟退火

基于听感知特征的英语句子重音检测被引量：4: 2010年; 为了更有效地提取英语句子重音,提出了一种基于听感知特征的方法。根据音素特点,改进段长的归一化方法;根据听感知特性,引入半音程和响度特征,并以归一化的音节最高值代替其平均值,系统正确率达到78.7%,漏检率为9.37%。在此基础上,还提出了基于掩蔽效应的突显度模型,系统正确率提高到83.4%,漏检率下降到5.72%。实验表明,突显度模型更符合人的听感知,其性能接近人工标注的一致率(约为86%)。系统还具有文本无关和说话人无关的优点。; 李坤刘加; 关键词：语音信号处理句子重音响度

基于最大似然线性回归矩阵的说话人识别算法研究: 2009年; 研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression,MLLR)变换矩阵作为特征进行文本无关的说话人识别算法.本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法,并在此基础上进行高层音素聚类以进一步提高识别性能.在采用多种信道补偿技术后,在NISTSRE2006年1训练语段-1测试语段同信道和跨信道数据库上,基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性,经过简单线性融合可以极大提高识别性能.; 钟山何亮邓妍刘加; 关键词：说话人识别支持向量机信道补偿

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60776800)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60776800)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈