国家自然科学基金(61301295) 作品数:13 被引量:43 H指数:5 相关作者: 周健 陶亮 王华彬 沈舷 周健 更多>> 相关机构: 安徽大学 东南大学 常州纺织服装职业技术学院 更多>> 发文基金: 国家自然科学基金 安徽省自然科学基金 江苏省自然科学基金 更多>> 相关领域: 电子电信 自动化与计算机技术 电气工程 更多>>
利用深度卷积神经网络将耳语转换为正常语音 被引量:8 2020年 耳语是一种特殊发音方式,将耳语转换为正常语音是提升耳语质量和可懂度的关键方法。为了充分利用语音的频域和时域相关性实现耳语转换,提出了使用深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)将耳语转换为正常语音。它的卷积层用来提取连续帧语音谱包络之间的频域与时域的相关特征,而全连接层用来拟合耳语在卷积层提取的特征和对应正常语音之间的映射关系。实验结果表明与深度神经网络(Deep Neural Networks,DNN)模型相比,DCNN模型获得的转换后语音的梅尔倒谱失真度(Cepstral Distance,CD)降低了4.64%,而语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)与平均主观意见分(Mean Opinion Score,MOS)分别提高了5.41%,5.77%,9.68%。 连海伦 周健 胡雨婷 郑文明关键词:DNN 卷积核 基于Retinex和小波分解的手背静脉识别方法 被引量:5 2014年 为了解决手背静脉识别系统中图像的对比度较低且静脉结构简单的问题,首先提出一种基于自适应平滑滤波器的Retinex增强算法,在增强静脉结构的同时均衡了图像灰度;然后分析了静脉图像的小波分解子带图像和灰度积分投影,指出小波低频子带图像和垂直方向的灰度积分投影比较适合作为手背静脉识别的特征;进一步提取了基于逼近系数的小波不变矩特征,并融合形成了90维的手背静脉特征向量;最后建立SVM分类器并利用手背静脉图像库进行实验,结果证明了该算法的识别优越性. 王华彬 陶亮 周健关键词:静脉识别 生物特征识别 特征提取 小波分解 一种基于特征融合的耳语音向正常音的转换方法 2020年 使用耳语音的频谱包络来预估正常音的基频特征,这类算法在对正常音基频预测的准确性上存在一定不足,在合成语音自然度方面存在着明显欠缺,有时会出现音调失常等问题。本文提出一种声学特征融合的方法,通过双向长短期记忆(Bi‑long short‑term memory,BLSTM)深度网络来逐帧预测正常音基频。首先,使用STRAIGHT模型和相关代码,分别对耳语音和正常音语料进行预处理,提取耳语音的梅尔倒谱系数(Mel‑scale frequency cepstral coefficient,MFCC)、韵律及谱包络特征,正常音的基频与谱包络特征。然后使用BLSTM深度网络,分别建立耳语音和正常音谱包络特征之间映射关系,以及耳语音MFCC、韵律及谱包络特征对正常音基频F0的映射关系。最后根据耳语音的MFCC、韵律及谱包络特征获得对应的正常音基频和谱包络,使用STRAIGHT模型合成正常音。实验结果表明,相较于仅使用谱包络估计基频,采用此种方法引入语音韵律和MFCC的融合特征是对基频特征的良好补充,解决了音调失常的现象,转换后的语音在韵律上更加接近正常发音。 庞聪 连海伦 周健 王华彬 陶亮关键词:语音转换 韵律模型 基于引导滤波器的单幅雾天图像复原算法 被引量:9 2015年 基于中值滤波的单幅图像去雾算法所获取的大气面纱图像不能有效地保留雾天图像的边缘信息,也不能真实地反映场景的深度信息,因此,提出了一种基于引导滤波器的大气面纱修正方法。由中值滤波得到初始大气面纱,使用引导图像滤波器对其进行修正得到较为准确的大气面纱,去除多余的纹理信息的同时增强了雾天图像的边缘信息,由大气散射模型得到场景辐射光即复原图像,并对其进行亮度调整。与其他现有的典型去雾算法相比较,该算法在深度剧烈变化的边缘区域有更好的去雾和增强效果,且时间复杂度为线性。 楚君 王华彬 陶亮 周健关键词:图像去雾 Intelligibility evaluation of enhanced whisper in joint time-frequency domain 被引量:1 2014年 Some factors influencing the intelligibility of the enhanced whisper in the joint time-frequency domain are evaluated. Specifically, both the spectrum density and different regions of the enhanced spectrum are analyzed. Experimental results show that for a spectrum of some density, the joint time-frequency gain-modification based speech enhancement algorithm achieves significant improvement in intelligibility. Additionally, the spectrum region where the estimated spectrum is smaller than the clean spectrum, is the most important region contributing to intelligibility improvement for the enhanced whisper. The spectrum region where the estimated spectrum is larger than twice the size of the clean spectrum is detrimental to speech intelligibility perception within the whisper context. 周健 魏昕 梁瑞宇 赵力基于GMM均值超向量稀疏分解的碰摩声发射源识别 2018年 研究提出了一种基于GMM均值超向量稀疏分解的风电机组碰摩声发射源识别检测方法。以压缩感知理论与GMM识别模型为基础,将高斯分量的均值向量连接组成GMM均值超向量作为压缩感知的稀疏基,并利用MP、OMP算法进行稀疏分解,根据稀疏系数识别风电机组碰摩声发射源,而不需要对信号进行重建,提高了识别性能和效率。通过实验观察上位机输出结果,验证了识别结果数据的实时性和准确性,达到了对风电机组运行的状态信息监测和故障诊断的要求。 殷智浩 沈舷关键词:声发射 声源识别 采用L1/2稀疏约束的梅尔倒谱系数语音重建方法 被引量:5 2018年 提出了一种利用L1/2稀疏约束从梅尔倒谱系数重建语音时域信号方法。从梅尔倒谱系数估计语音幅度谱是一个欠定问题,现有的方法均采用幅度谱最小均方误差估计或采用L1正则化进行幅度谱的稀疏约束。相比于L1正则化模型,L1/2的稀疏约束特性更强,为此,本文在从梅尔倒谱系数估计语音幅度谱时引入L1/2正则化约束,并利用求解的稀疏幅度谱估计相位谱,最后利用估计的频谱重建时域语音信号。实验结果表明,与幅度谱最小均方误差法相比,本文算法所估计出的语音信号具有更高的语音质量;在噪声环境下进行语音重建实验,与L1正则化幅度谱估计方法相比,本文算法重建的语音质量更好,表现出更好抗噪性。 周健 周健 窦云峰 路成 陶亮关键词:语音信号 倒谱系数 最小均方误差估计 谱估计方法 采用低维特征映射的耳语音向正常音转换 被引量:2 2018年 在将耳语音转换为正常音时,为了研究降维后语音特征对耳语音转换的影响,分别对耳语音和正常音谱包络进行自适应编码以提取耳语音和正常音的低维特征,然后使用BP网络建立耳语音和正常音低维谱包络特征之间的映射关系以及正常音基频和耳语音低维谱包络特征之间的关系。转换时,根据耳语音低维谱包络特征获得对应正常音的低维谱包络特征和基频,对低维谱包络特征进行解码后获得对应的正常音谱包络。实验结果表明,采用此方法转换后的语音与正常音之间的倒谱距离相比高斯混合模型方法下降了10%,转换后语音的自然度和可懂度都有所提高。 周健 周健 刘荣敏 王华彬 王华彬关键词:特征映射 耳语音 低维 语音转换 谱包络 自适应编码 矿井旋转机组碰摩声发射源监测系统的设计 被引量:1 2020年 研究提出了一种基于声发射源特征识别的矿井旋转机组碰摩故障检测方法。为了能对矿井旋转机组实时远程监控并实现分布式网络化管理,设计了一种基于ARM嵌入式系统的矿井旋转机组振动监测系统。针对高斯混合模型在建模时需要较多的训练数据的缺陷,提出了一种基于模糊矢量量化混合模型的声发射识别方法,该方法综合考虑了模糊集理论、矢量量化和高斯混合模型的优点,通过用模糊矢量量化误差尺度取代传统高斯混合模型的输出概率函数,减少了建模时对训练数据量的要求,提高了模型精度和识别速度。通过实验观察上位机输出结果,验证了监测数据的实时性和准确性,达到了对旋转机组运行的状态信息实时监测和故障诊断的要求。 林丽关键词:声发射 实时监测 基于快速卷积神经网络的图像去模糊 被引量:10 2017年 针对基于深度学习的图像去模糊方法无法有效地保留高频纹理信息,易产生振铃效应,且时间复杂度较高的问题,提出基于卷积神经网络(CNN)的图像去模糊方法.该方法设计了一种高频信号保持且可快速去模糊的快速CNN模型(FCNN).在此基础上,首先对高频图像进行傅里叶域上的预处理,通过实施傅里叶域去模糊的预处理得到一个初始的清晰图像;然后将该初始图像小块作为输入,相应的真实清晰图像小块作为标签训练FCNN,得到从模糊图像到潜在清晰图像的映射函数,实现基于该训练网络的去模糊.定性和定量实验结果表明,文中方法利用CNN参数共享的特点,减少了网络训练过程中大量的学习参数;相对前人基于深度学习的去模糊方法,该方法对模糊图像在保持图像纹理细节恢复的同时使计算复杂度得到显著降低. 任静静 方贤勇 陈尚文 汪粼波 周健关键词:图像去模糊 卷积神经网络