您的位置: 专家智库 > >

杨继臣

作品数:28 被引量:49H指数:5
供职机构:华南理工大学更多>>
发文基金:国家自然科学基金广东省自然科学基金中央高校基本科研业务费专项资金更多>>
相关领域:电子电信自动化与计算机技术文化科学环境科学与工程更多>>

文献类型

  • 23篇期刊文章
  • 3篇专利
  • 2篇学位论文

领域

  • 14篇电子电信
  • 10篇自动化与计算...
  • 1篇环境科学与工...
  • 1篇文化科学

主题

  • 6篇音频
  • 6篇说话人
  • 4篇语音
  • 3篇信号
  • 3篇信号处理
  • 3篇数据窗
  • 3篇水质
  • 3篇判决
  • 2篇多媒体检索
  • 2篇新闻
  • 2篇音频特征
  • 2篇音频文件
  • 2篇音效
  • 2篇水质信息
  • 2篇似然比
  • 2篇索引
  • 2篇同源
  • 2篇鲁棒
  • 2篇教学
  • 2篇教学改革

机构

  • 16篇华南理工大学
  • 11篇仲恺农业工程...
  • 3篇东莞理工学院
  • 3篇广东工业大学
  • 3篇茂名职业技术...
  • 1篇广州荔支网络...

作者

  • 28篇杨继臣
  • 8篇贺前华
  • 7篇李艳雄
  • 3篇张雪源
  • 3篇李新超
  • 3篇林静
  • 3篇陈雪芳
  • 2篇张新政
  • 2篇刘磊安
  • 2篇王伟凝
  • 2篇苏杰华
  • 2篇吴裕玲
  • 1篇徐益君
  • 1篇李威
  • 1篇姚学科
  • 1篇潘伟锵
  • 1篇符志强
  • 1篇何俊
  • 1篇李韬
  • 1篇叶婉玲

传媒

  • 3篇仲恺农业工程...
  • 2篇电子与信息学...
  • 2篇华中科技大学...
  • 2篇华南理工大学...
  • 2篇计算机应用
  • 2篇计算机工程与...
  • 2篇科学技术与工...
  • 1篇电子学报
  • 1篇数据采集与处...
  • 1篇计算机工程与...
  • 1篇计算机工程
  • 1篇广东工业大学...
  • 1篇计算机与数字...
  • 1篇福建电脑
  • 1篇教育教学论坛

年份

  • 1篇2018
  • 6篇2016
  • 4篇2015
  • 1篇2014
  • 2篇2013
  • 4篇2012
  • 3篇2011
  • 3篇2010
  • 1篇2009
  • 1篇2007
  • 2篇2006
28 条 记 录,以下是 1-10
排序方式:
新闻故事中的关键说话人发现方法被引量:1
2012年
为了发现新闻故事中的关键说话人,用以提高多媒体检索效率,在说话人索引的基础上,提出了关键人发现方法:根据新闻故事中说话人的特点,基于说话人频率、说话人持续时间、平均每次说话人时长和说话人位置因子4个因素,综合定义了说话人关键度,用以判断说话人的重要性,把每个新闻故事中说话人关键度最大的人作为关键说话人。实验结果表明,该种算法可以找到故事中绝大部分的关键说话人,验证了该算法的有效性和可行性。
杨继臣李艳雄
关键词:新闻故事多媒体检索主要角色
基于两步判决的口语中非文字音频事件检测方法被引量:1
2011年
为了有效利用非文字音频事件进行会话语音的语义分析,在分析口语中频繁出现的音频事件特征差异的基础上,提出了一种基于两步判决的口语中非文字音频事件的检测方法.该方法利用音频事件的信号特征构造音频事件信号段,采用门限判决来检测长掌声(第一步判决),而用统计模型来检测其它音频事件(第二步判决).实验结果表明:该方法检测填音、笑声、掌声3种非文字音频事件的平均准确率、召回率和F1度量值分别为87.3%、93.8%和90.4%;与现有文献数据相比,F1度量值平均提高了7.5%,且文中方法能更精确地确定非文字音频事件的边界.
贺前华李艳雄李韬张虹杨继臣
关键词:门限判决语音处理
基于深层说话人矢量的说话人检索
2015年
为了解决浅层特征不能有效刻画说话人特征,导致说话人检索率不高的问题,提出了一种基于深层说话人矢量的说话人检索方法.使用受限波尔兹曼机逐层构建一个多层的深层特征提取器用以提取说话人深层特征.为说话人构建基于深层特征的深层说话人矢量.通过计算要检索的说话人的深层说话人矢量和检索库中的说话人深层特征之间的最小距离,对目标说话人进行检索.实验结果表明:在深层特征下,使用深层说话人矢量可以检索到绝大部分的目标说话人;随着深度层数的增加,检索率先增后减,检索率最高对应的深度层数是7;随着深度层数的增加,检索时间非线性增加.
李威杨继臣贺前华李艳雄
关键词:检索率
基于核密度估计的说话人改变检测
2012年
为了解决在说话人改变检测常用算法中寻找说话人改变点(Speaker change point,SCP)过程中存在的盲目性和遍历性问题,使用均值漂移的核密度估计寻找SCP:首先使用均值漂移寻找峰值点,然后计算峰值点的最大似然值,最后通过寻找最大值的方法寻找SCP.试验结果表明,提出的算法的F1值与贝叶斯信息准则(Bayesian information criterion,BIC)和DISTBIC接近.
杨继臣吴裕玲苏杰华
关键词:均值漂移核密度估计
一种基于指纹因子的鲁棒音频检索方法被引量:3
2016年
针对基于内容的音频检索中由于噪声造成的查找失败问题,本文提出了一种对噪声鲁棒的基于音频指纹因子的音频特征提取算法和一种半监督的音频字典训练算法,以提高噪声下音频检索的精度。本文方法从Mel谱中提取音频指纹,利用非负矩阵分解算法将指纹分解为对噪声鲁棒的频率因子和时间因子作为特征。同时通过提出的半监督音频字典训练算法进行音频字典训练,本文方法使用音效集计算基本音效的分布空间作为初始字典,在量化数据的同时动态更新字典以实现对数据的准确描述。实验结果表明,在低信噪比条件下本文提出的算法的平均查询精度明显高于其他算法。
林静杨继臣张雪源李新超
关键词:音频检索非负矩阵分解倒排索引
基于时空相关度融合的语音唇动一致性检测算法被引量:5
2014年
本文在传统发音唇动分析模型的基础上,构建一个发音唇动时空模型.提出了唇动时域特征、空域特性与语音的相关度度量方法,以及融合时空度量的语音唇动一致性检测方法.利用唇宽、唇高与音频幅度变化之间的联系获得语音唇动的时域一致性评分;通过协惯量分析法获得语音与唇部空域特征的初始相关度,并提出了针对语音、唇动自然延时的相关度修订方法;最后将时空上的得分进行融合以判断语音唇动是否一致.初步实验结果表明,对于四种不一致音视频数据,与常用的协惯量方法相比,EER(Equal Error Rate)平均下降了约8.2%.
朱铮宇贺前华奉小慧叶婉玲李艳雄杨继臣
一种基于GLR的同源音频广告检索方法
本发明公开了一种基于GLR的同源音频广告检索方法,该方法采用广义似然比(Generalized Likelihood Ratio,简称:GLR)在音频文件中检测同源音频广告,主要包括以下步骤:(1)为提取的特征构建数据窗...
杨继臣金海
文献传递
一种两步判决的说话人分割算法被引量:7
2010年
为了提高说话人分割(SS)准确率,该文综合考虑了静音信息和性别信息在SS中的作用,提出了一种两步判决的SS算法。在从音频流中分离出语音段的基础上,采用两步判决的方法进行SS。第1步采用基频信息为主、性别模型为辅的策略进行SS,将相邻说话人基频差异大的说话人改变检测出来;第2步采用基于性别的改进T2判决公式进行SS,实现相邻说话人基频差异小的同性别SS,为此,该文提出了一个基于块的潜在说话人改变点检测算法。实验结果表明,本文算法提高了分割准确率,F1度量值可达85.14%。对于短时长(<2s)语音段的SS,该算法和传统的贝叶斯信息判决算法相比,漏检率减少了16%。
杨继臣贺前华李艳雄王伟凝
关键词:语音信号处理
基于Matlab GUI的水质信息应用系统的设计被引量:1
2006年
介绍了在M atlab GUI环境下,通过访问数据库,如何对水质信息进行管理,读取水质信息,作出水质信息图像;通过观察已知数据图像,不仅可以总结过去的规律,还可以对未来水质信息发展趋势进行预测.
杨继臣张新政
关键词:MATLABGUI数据库图像
基于高频加权CQT谱的音符起始点检测被引量:3
2015年
为提高音符起始点检测的准确率,提出高频加权CQT谱能量的音符起始点检测算法。对音乐信号进行CQT变换得到音阶分布矩阵后,结合不同信号CQT分布的特点滤除噪声。在采用CQT谱能量差分进行音符起始点检测时,针对CQT变换变窗长计算带来的低频时间分辨率较低、时间误差较大可能导致误判的问题,利用音乐中谐波丰富且时间分辨率较高的特点,进行高频加权计算,突出高频成分的作用,降低检测误差。选取标注的音乐数据文件进行测试,应用高频加权CQT谱进行起始点检测的结果中,F值为0.8541,效果良好。
林静贺前华李新超杨继臣
关键词:谱能量
共3页<123>
聚类工具0