牛铜
- 作品数:28 被引量:77H指数:5
- 供职机构:中国人民解放军信息工程大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划河南省自然科学基金更多>>
- 相关领域:电子电信自动化与计算机技术更多>>
- 汉语音节混淆网络的生成与重打分算法研究
- 2012年
- 针对目前混淆网络生成算法速度与精度不能兼顾的不足,提出一种新的汉语音节混淆网络生成的方法.本算法采用类似轴对齐算法,对音节网格每次提取一条局部路径与参考路径对齐,根据每次对齐路径与参考路径长度不同,采用不同的策略生成混淆网络,并在生成混淆网络之后对其应用一种新的解码框架进行重打分.实验表明,该算法生成的混淆网络精度较高,时间复杂度优于轴对齐算法,且重打分后的识别率有显著提高.
- 尹明明李弼程屈丹牛铜
- 关键词:混淆网络语音识别
- 一种基于声学空间非线性流形结构的声学模型构建方法
- 本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在...
- 张文林屈丹李真闫红刚牛铜
- 文献传递
- 基于长时性特征的音位属性检测方法
- 2012年
- 提出一种基于长时性信息的音位属性检测方法,该方法通过高、低两层时间延迟神经网络(TDNN)进行实现,低层TDNN在短时特征上进行音位属性的检测,高层TDNN在低层检测结果的基础上,对更长时段上的信息进行融合。实验结果表明,引入长时性特征使得音位属性检测率提升约3%,将音位属性后验概率作为音素识别系统的观测特征,使用长时性特征的识别结果提升约1.7%。
- 许友亮张连海屈丹牛铜
- 关键词:层级结构人工神经网络隐马尔可夫模型音素识别
- 卷积神经网络表征可视化研究综述被引量:19
- 2022年
- 近年来,深度学习在图像分类、目标检测及场景识别等任务上取得了突破性进展,这些任务多以卷积神经网络为基础搭建识别模型,训练后的模型拥有优异的自动特征提取和预测性能,能够为用户提供“输入–输出”形式的端到端解决方案.然而,由于分布式的特征编码和越来越复杂的模型结构,人们始终无法准确理解卷积神经网络模型内部知识表示,以及促使其做出特定决策的潜在原因.另一方面,卷积神经网络模型在一些高风险领域的应用,也要求对其决策原因进行充分了解,方能获取用户信任.因此,卷积神经网络的可解释性问题逐渐受到关注.研究人员针对性地提出了一系列用于理解和解释卷积神经网络的方法,包括事后解释方法和构建自解释的模型等,这些方法各有侧重和优势,从多方面对卷积神经网络进行特征分析和决策解释.表征可视化是其中一种重要的卷积神经网络可解释性方法,能够对卷积神经网络所学特征及输入–输出之间的相关关系以视觉的方式呈现,从而快速获取对卷积神经网络内部特征和决策的理解,具有过程简单和效果直观的特点.对近年来卷积神经网络表征可视化领域的相关文献进行了综合性回顾,按照以下几个方面组织内容:表征可视化研究的提起、相关概念及内容、可视化方法、可视化的效果评估及可视化的应用,重点关注了表征可视化方法的分类及算法的具体过程.最后是总结和对该领域仍存在的难点及未来研究趋势进行了展望.
- 司念文张文林屈丹罗向阳常禾雨牛铜
- 关键词:卷积神经网络可解释性
- 一种新的噪声自相关估计方法被引量:1
- 2009年
- 通过分析带噪语音、纯净语音和噪声的自相关关系,在均方误差最小准则下给出了一种基于最优平滑滤波和能量最小算法相结合的噪声自相关无偏估计算法,与传统的噪声自相关估计不同,该算法直接从带噪语音自相关中估计噪声自相关。实验表明,该算法优于传统的噪声自相关估计算法,在非平稳噪声环境下,估计器的性能得到改善。
- 牛铜张连海屈丹
- 关键词:语音增强子空间
- 基于语音质量参数的语音传输信道检测算法
- 2011年
- 针对不同编码算法对语音质量的影响,采用语音质量改进参数构造特征矢量,提出了一种基于SVM多级判决的语音编码检测算法,实现了对不同信道的识别。采用统计方法对这组参数的区分性进行了分析,在此基础上设计了一种高效的信道检测方案,结合实际数据,测试了算法性能,并分析了语音长度对性能的影响。实验结果表明,该算法能有效地提高信道检测准确率。
- 陈斌张连海牛铜屈丹
- 关键词:信道检测高阶累计量
- 不相关匹配追踪的分段区分性特征变换方法被引量:1
- 2016年
- 为了提高基于分帧特征变换方法的稳定性,提出了一种基于分段的区分性特征变换方法.该方法将特征变换当成高维信号的稀疏逼近问题,采用状态绑定的方法训练得到基于域划分的线性变换矩阵(Region Dependent Linear Transform,RDLT)和基于最小音素错误准则均值补偿的特征(mean-offset feature Minimum Phone Error,m-f MPE)变换矩阵,将两者的特征变换矩阵构成过完备的字典;采用强制对齐的方式对语音信号进行分段,以似然度最大化作为目标函数,利用匹配追踪算法对目标函数迭代优化,自动地确定各语音信号段中的变换矩阵及其系数.为保证特征变换的稳定性,在选择变换矩阵过程中引入相关度测量,去除相关的特征基矢量.实验结果表明,相比于传统的RDLT方法,当声学模型分别采用最大似然和区分性准则训练时,识别性能分别可以提高1.63%和2.23%.该方法同时能应用于语音增强和模型区分性训练中.
- 陈斌牛铜张连海屈丹李弼程
- 关键词:语音识别语音增强
- 基于端到端的神经网络机器翻译技术研究被引量:4
- 2018年
- 基于端到端的神经网络机器翻译(neuralmachinetranslation.NMT)是一种新的机器翻译方法.目前已成为机器翻译的核心技术.方法基于编码-解码框架.由一个编码器和一个解码器构成.用连接编码器和解码器的向量描述语义等价性.可以直接将源语言序列映射成目标语言序列.概括基于端到端NMT技术的研究进展.并进行展望.讨论NMT存在的难点问题及生成对抗网络和迁移学习技术在该领域上的应用.为下一步研究提供新的思路.
- 李真屈丹高明霞张文林牛铜
- 关键词:端到端
- 感知加权改进的子空间语音增强算法
- 牛铜张连海屈丹李弼程
- 关键词:语音增强信号子空间
- 基于最大似然可变子空间的快速说话人自适应方法被引量:3
- 2012年
- 该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。
- 张文林牛铜张连海李弼程
- 关键词:连续语音识别说话人自适应子空间方法