国家自然科学基金(61233009)
- 作品数:8 被引量:9H指数:2
- 相关作者:陶建华魏建国曹梦雪李爱军方强更多>>
- 相关机构:中国科学院自动化研究所北京师范大学天津大学更多>>
- 发文基金:国家自然科学基金中国博士后科学基金教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术电子电信语言文字理学更多>>
- 面向X光发音视频的舌位轮廓自动提取方法被引量:1
- 2014年
- 发音器官的X光视频为分析人的发音过程提供了重要数据,但由于其存在成像模糊、遮挡严重等问题,使得X光视频中舌位运动轮廓往往难以提取,为此提出一种接近全自动的X光视频中舌位轮廓提取方法.首先采用区域灰度对比的边缘检测算子在舌位运动区域中获取初步边缘点集合;针对X光图像是高噪声图像且舌位轮廓常被其他发音器官如牙齿等遮挡,造成初步边缘点集合中包含了很多的错误点,进一步提出一种基于邻接点簇的点到点距离比错误点排除法,得到较高精度的舌位轮廓边缘点集合;最后借助RANSAC和过控制点B样条曲线拟合技术,提取出整个舌位边缘轮廓点.实验结果表明,该方法获得的舌位轮廓精度高,可用于舌位连续发音运动特征的分析.
- 张大伟杨明浩陶建华
- 面向窄带通信的极低速率语音编码算法研究被引量:2
- 2013年
- 提出了一种面向窄带通信的极低速率参数语音编码算法。在2.4kbps MELP标准的基础上结合听觉感知,对线谱对参数进行联合矢量量化、对基音周期进行内插和非线性量化、对能量参数进行高效压缩,可以使语音数据在0.5kbps下匀速传输;线谱对参数的预测残差用于矢量量化,这是一种提高合成语音的音质的有效方法。实验结果表明,采用本文提出的语音编码算法可以使语音数据在极低码率下有效的传输,解码端合成的语音具有较高的可懂度。
- 刘斌陶建华莫福源
- 关键词:听觉感知
- 声道中气动声学问题的光滑粒子动力学模拟被引量:3
- 2016年
- 在人体发音过程仿真中,考虑声道边界的动态变化以及气流的流动,可以更加准确、真实地模拟声波在声道中的传播。在处理带有移动边界的气动声学问题时,相比传统声道声学研究中广泛应用的网格方法,无网格方法可以避免网格重构、网格畸变等。基于Euler体系下的气动声学波动方程,推导了Lagrange体系下声波传播的控制方程,并建立了无网格光滑粒子动力学(smoothed particle hydrodynamics,SPH)方法的数值离散格式。通过对比静止流体中声传播问题的SPH解和时域有限差分(finite difference time domain,FDTD)解,验证了SPH方法在声学计算中的准确性和可靠性。对于一维和二维流动流体中的声传播问题,通过与基于Doppler效应的理论解对比,阐明了利用SPH方法求解复杂气动声学问题的可行性。
- 魏建国韩江侯庆志王颂党建武
- 关键词:气动声学声道无网格LAGRANGE方法
- Multi-task learning in Prediction and Correction for Low Resource Speech Recognition
- In this paper we investigate the performance of Multitask learning(MTL) for the combined model of Convolutiona...
- Danish BukhariJiangyan YiZhengqi WenLiu BinJianhua Tao
- 关键词:MTL
- 文献传递
- 汉语无标记疑问句的语调分析与建模被引量:1
- 2018年
- 语音工程中疑问句基频的生成有赖于对疑问句语调走势的全局把握与量化建模。该文以疑问句和陈述句的音高曲线的回归线代表语调走势,结合实验语料和自然语料对二者语调进行分析。发现音高曲线的回归斜率是区别陈述句与疑问句语调的重要韵律特征,该特征受句子长度、时域范围等因素影响,在2种句型中有不同的表现。用反函数对疑问句语调斜率的变化规则进行建模,取得了较高的拟合优度,为疑问句语调走势的预测与生成提供了可靠依据。
- 许小颖赖玮赖玮丁星光李雅
- 关键词:语调韵律
- 基于GSOM模型的音位范畴习得建模被引量:2
- 2016年
- 为了探究神经网络模型在儿童语言习得模拟研究中的应用,该文在可扩展的自组织网络模型(growing selforganizing map,GSOM)算法的基础上,模拟了婴幼儿习得标准德语部分元音和辅音音位范畴的过程。该研究将优化的网络扩展策略和“循环性强化和复习训练”学习算法与传统的GSOM算法进行了结合。模拟结果显示:“循环性强化和复习训练”算法可以有效地提高模型网络的学习质量;模型算法可以较好地习得元音音位和辅音发音方式的范畴,并构建相应的知识网络。建模研究的结果表明:在习得语言的过程中,通过对语音声学信息的加工,婴幼儿有能力习得元音音位和辅音发音方式的范畴,并构建元音音位在声学空间内的分布关系。
- 曹梦雪李爱军方强
- 关键词:儿童语言习得
- 汉语普通话音位范畴习得建模研究
- 本文在可扩展的自组织网络模型算法的基础上采用优化的扩展策略,以单音节词为例,模拟了语言习得早期婴幼儿对汉语普通话音位范畴的习得。建模结果表明,在语言习得的初期,通过对音节整体的声学信息的加工,婴幼儿有能力习得元音音位的范...
- 曹梦雪李爱军方强
- 文献传递
- 基于医学影像的语音驱动舌位运动合成
- 发音器官运动可视化对人类发音机理研究、语言教学和病理语音分析等具有重要意义。本文提出一种文本无关的语音驱动舌位运动合成方法,基于医学影像和舌位轮廓自动提取方法,利用组合深度神经网络模型实现舌位运动的实时合成,并对舌位轮廓...
- 张大伟杨明浩陶建华
- 关键词:语音驱动医学影像
- 文献传递
- 基于情感的元音嗓音音质参数提取与分析
- 2014年
- 研究了九个嗓音音质参数在五个元音七种情感下的显著性差异,为接下来的情感语音合成做准备.数据库来自同一女性发音人在七种情感下录制的语音样本,从中提取得到九个参数.首先对参数作Shapiro-Wilk检验和Kruskal-Wallis秩和检验,从总体上检验各参数在不同情感间的差异显著性,然后采用中位数检验方法分别对各元音各参数作分析,验证秩和检验结果并研究参数的变化规律.分析结果表明:参数NAQ,MFDR、pulseAmp在情感间具有显著性差异,meanF0、pulseAmp、MFDR具有元音无关的情感变化模式.
- 李向伟王红
- 关键词:情感语音
- 婴幼儿母语音位范畴习得机制的建模研究
- 2017年
- 婴幼儿对母语音位范畴的习得依赖于其与语言社会的交互。本研究从计算建模的角度出发,通过建立语言习得模型,利用家长输入语语料,模拟婴幼儿在言语交互中习得母语音位范畴的过程。基于联结的模型网络结构,本研究观察了语音信息和语义信息在音位习得中的交互作用。模拟结果揭示出,婴幼儿母语音位感知的建立不是一个由单一因素所决定的过程,基于语义的由高层到底层的加工对形成正确的母语音位范畴感知起着至关重要的作用。
- 曹梦雪李爱军方强