公共文化服务平台

2024年7月2日星期二

|

欢迎来到维普•公共文化服务平台

登录 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家自然科学基金(60802085): 作品数：2 被引量：2H指数：1; 相关作者：谢磊张艳宁周祥增李冰锋付中华更多>>; 相关机构：西北工业大学更多>>; 发文基金：国家自然科学基金陕西省自然科学基金陕西省科学技术研究发展计划项目更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

3篇会议论文
2篇期刊文章

领域

4篇自动化与计算...
1篇电子电信

主题

4篇语音
3篇音频
2篇新闻
2篇音频分类
2篇语音合成
2篇语音驱动
2篇语音识别
2篇说话人识别
2篇频分
2篇中文
2篇可视语音
2篇可视语音合成
1篇多媒体检索
1篇新闻字幕
1篇声纹
1篇声纹识别
1篇全自动
1篇中文新闻
1篇自动生成
1篇字幕制作

机构

5篇西北工业大学

作者

5篇张艳宁
5篇谢磊
3篇杨玉莲
3篇郑李磊
2篇付中华
2篇李冰锋
2篇周祥增
2篇王晓暄
1篇芦咪咪

传媒

1篇电子学报
1篇清华大学学报...
1篇第18届全国...

年份

3篇2011
2篇2009

共 2 条记录，以下是 1-5

全选清除导出

排序方式：

基于Alize工具包的广播音频播音员自动标注系统: 本文设计与实现了一个基于Alize开源说话人识别工具包的广播音频播音员自动标注系统,对中央电视台《新闻联播》节目主持人以及重要说话人进行自动身份识别、分割与标注。采用Alize工具包提供的Feature Server、M...; 卢咪咪谢磊郑李磊杨玉莲张艳宁; 关键词：说话人识别声纹识别多媒体检索; 文献传递

实时语音驱动的虚拟说话人被引量：2: 2011年; 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。; 李冰锋谢磊周祥增付中华张艳宁; 关键词：可视语音合成

实时语音驱动的虚拟说话人: 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分...; 李冰锋谢磊周祥增付中华张艳宁; 关键词：可视语音合成; 文献传递

中文新闻字幕自动生成系统的设计与实现: 通过大词汇量连续语音识别技术对广播音频进行自动抄本(Automatic Transcription),将新闻音频转换成文本,是实现新闻结构化分割、基于内容语义访问和检索的前提。本文设计与开发了一个中文新闻字幕自动生成系统...; 郑李磊谢磊王晓暄卢咪咪杨玉莲张艳宁; 关键词：语音识别音频分类字幕制作; 文献传递

全自动中文新闻字幕生成系统的设计与实现: 2011年; 本文设计与实现了一个全自动中文新闻字幕生成系统,输入为新闻视频,输出为视频对应的字幕文本.以《新闻联播》为语料,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件的播放和文本字幕的自动生成等多项功能.新闻字幕的自动生成,避免了繁重费时的人工字幕添加过程.实验表明,该系统识别率高,能够满足听障等特殊人群和特殊场合的电视新闻收视需求.; 郑李磊谢磊芦咪咪王晓暄杨玉莲张艳宁; 关键词：语音识别音频分类说话人识别

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有 @ 渝北区图书馆 2016－2018 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张