您的位置: 专家智库 > >

国家自然科学基金(60802085)

作品数:2 被引量:2H指数:1
相关作者:谢磊张艳宁周祥增李冰锋付中华更多>>
相关机构:西北工业大学更多>>
发文基金:国家自然科学基金陕西省自然科学基金陕西省科学技术研究发展计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇会议论文
  • 2篇期刊文章

领域

  • 4篇自动化与计算...
  • 1篇电子电信

主题

  • 4篇语音
  • 3篇音频
  • 2篇新闻
  • 2篇音频分类
  • 2篇语音合成
  • 2篇语音驱动
  • 2篇语音识别
  • 2篇说话人识别
  • 2篇频分
  • 2篇中文
  • 2篇可视语音
  • 2篇可视语音合成
  • 1篇多媒体检索
  • 1篇新闻字幕
  • 1篇声纹
  • 1篇声纹识别
  • 1篇全自动
  • 1篇中文新闻
  • 1篇自动生成
  • 1篇字幕制作

机构

  • 5篇西北工业大学

作者

  • 5篇张艳宁
  • 5篇谢磊
  • 3篇杨玉莲
  • 3篇郑李磊
  • 2篇付中华
  • 2篇李冰锋
  • 2篇周祥增
  • 2篇王晓暄
  • 1篇芦咪咪

传媒

  • 1篇电子学报
  • 1篇清华大学学报...
  • 1篇第18届全国...

年份

  • 3篇2011
  • 2篇2009
2 条 记 录,以下是 1-5
排序方式:
基于Alize工具包的广播音频播音员自动标注系统
本文设计与实现了一个基于Alize开源说话人识别工具包的广播音频播音员自动标注系统,对中央电视台《新闻联播》节目主持人以及重要说话人进行自动身份识别、分割与标注。采用Alize工具包提供的Feature Server、M...
卢咪咪谢磊郑李磊杨玉莲张艳宁
关键词:说话人识别声纹识别多媒体检索
文献传递
实时语音驱动的虚拟说话人被引量:2
2011年
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。
李冰锋谢磊周祥增付中华张艳宁
关键词:可视语音合成
实时语音驱动的虚拟说话人
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分...
李冰锋谢磊周祥增付中华张艳宁
关键词:可视语音合成
文献传递
中文新闻字幕自动生成系统的设计与实现
通过大词汇量连续语音识别技术对广播音频进行自动抄本(Automatic Transcription),将新闻音频转换成文本,是实现新闻结构化分割、基于内容语义访问和检索的前提。本文设计与开发了一个中文新闻字幕自动生成系统...
郑李磊谢磊王晓暄卢咪咪杨玉莲张艳宁
关键词:语音识别音频分类字幕制作
文献传递
全自动中文新闻字幕生成系统的设计与实现
2011年
本文设计与实现了一个全自动中文新闻字幕生成系统,输入为新闻视频,输出为视频对应的字幕文本.以《新闻联播》为语料,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件的播放和文本字幕的自动生成等多项功能.新闻字幕的自动生成,避免了繁重费时的人工字幕添加过程.实验表明,该系统识别率高,能够满足听障等特殊人群和特殊场合的电视新闻收视需求.
郑李磊谢磊芦咪咪王晓暄杨玉莲张艳宁
关键词:语音识别音频分类说话人识别
共1页<1>
聚类工具0