张鹏远
- 作品数:162 被引量:138H指数:6
- 供职机构:中国科学院声学研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划新疆维吾尔自治区重大科技专项更多>>
- 相关领域:电子电信自动化与计算机技术文化科学语言文字更多>>
- 一种基于神经网络的端到端信道质量评估方法及系统
- 本发明公开了一种基于神经网络的端到端信道质量评估方法,包括:采集远场带噪语音;根据远场带噪语音所处的声学环境将语音质量评估系统调整为第一质量评估方式;语音质量评估系统支持包含第一质量评估方式在内的多种质量评估方式;将远场...
- 张鹏远党风颜永红
- 静音掩蔽和频域分段的音频指纹检索算法
- 2022年
- 为解决背景音及噪音等条件下音频检索识别率低的问题,提出静音掩蔽和频域分段的音频指纹检索算法。首先采用端点检测技术进行语音预处理,将有效语音帧重新组合并利用相邻子带能量差对其提取指纹特征,可有效解决静音帧指纹特征不鲁棒的问题。然后在检索匹配时根据不同音频信号在频域范围内的分布特点,对音频指纹在不同频率区间进行分段和加权,以更精确地计算模板和待检音频之间的相似度。实验表明,与Philips基线算法相比,所提算法在检索速度上提升了一倍,在受背景音等干扰的数据集上,平均准确率与召回率分别绝对提升17.94%和4.66%;与最新Philips算法相比,平均准确率与召回率分别绝对提升13.68%和2.45%。
- 陈树丽张学帅张鹏远刘建
- 关键词:指纹特征相似度音频信号音频检索
- 一种多个说话人的语音转折点检测方法及装置
- 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的...
- 张鹏远张学帅颜永红
- 一种段落语音合成建模及段落语音合成方法
- 本发明涉及一种段落语音合成建模方法,所述方法包括:构建包括MSAE、MSTE和MSD的段落语音合成模型;以段落语音的线性频谱图和其对应的段落文本对为训练样本,构建训练样本集;以重建线性频谱图为任务,将KL损失的权重设置为...
- 尚增强李绪源王丽张鹏远
- 一种多通道远场语音识别方法
- 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接...
- 张鹏远李文洁潘接林颜永红
- 文献传递
- 一种基于自适应学习率的端到端的语音识别方法
- 本发明提供一种基于自适应学习率的端到端的语音识别方法,包括:步骤(1)、采用双向递归神经网络作为声学模型,分别计算所述前向递归神经网络隐层<Image file="DDA0002748064470000011.GIF" ...
- 张鹏远王旭阳潘接林颜永红
- 文献传递
- 面向会议场景的声纹识别技术
- 张鹏远
- 一种基于神经网络中间层特征滤波的音频信号分类方法
- 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分...
- 张鹏远陈航艇颜永红
- 文献传递
- 一种语音转换模型的训练方法及装置
- 本说明书实施例提供一种语音转换模型的训练方法及装置,方法包括:对样本音频进行特征提取,得到梅尔谱特征标签及基频序列;将梅尔谱特征标签输入编码器,得到第一内容向量;将第一内容向量输入瓶颈层,得到当前码本向量及第二内容向量;...
- 张鹏远陈子毅颜永红
- 文献传递
- 一种基于增强技术的对话状态追踪方法及系统
- 本申请提供一种基于增强技术的对话状态追踪方法,包括:获取数据库和已知领域对话状态追踪模型;利用数据增强技术从数据库和已知领域训练样本获取新领域本轮对话文本、上轮对话状态、本轮对话状态标签;使用槽位值类别预测器预测新槽位的...
- 张学君张鹏远颜永红