公共文化服务平台

2024年11月25日星期一

|

欢迎来到维普•公共文化服务平台

登录 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家重点基础研究发展计划(2011CB302500): 作品数：5 被引量：16H指数：2; 相关作者：刘磊刘雷孙凝晖范东睿王燕燕更多>>; 相关机构：中国科学院吉林大学中国科学院研究生院更多>>; 发文基金：国家重点基础研究发展计划国家高技术研究发展计划国家自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

5篇期刊文章
1篇会议论文

领域

6篇自动化与计算...

主题

2篇核结构
2篇DSO
2篇GO
2篇GPU
2篇处理器
2篇N-
1篇队列
1篇多分辨
1篇多分辨率
1篇移植性
1篇优化技术
1篇上访
1篇数据平面
1篇数据中心
1篇体系结构
1篇去块滤波
1篇小波
1篇小波变换
1篇矩阵
1篇矩阵乘

机构

6篇中国科学院
2篇吉林大学
2篇中国科学院研...
1篇中国科学院大...

作者

3篇范东睿
2篇刘雷
2篇刘磊
2篇孙凝晖
2篇范灵俊
1篇徐卫志
1篇颜成钢
1篇包云岗
1篇安述倩
1篇王达
1篇张睿
1篇唐士斌
1篇马宜科
1篇马久跃
1篇焦帅
1篇申春
1篇张浩
1篇宋风龙
1篇李杨
1篇张子佳

传媒

1篇计算机研究与...
1篇计算机学报
1篇小型微型计算...
1篇吉林大学学报...
1篇吉林大学学报...

年份

1篇2017
2篇2015
3篇2011

共 5 条记录，以下是 1-6

全选清除导出

排序方式：

H.264去块滤波算法在众核结构上的并行优化被引量：2: 2011年; 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升.; 范灵俊颜成钢宋风龙马宜科范东睿; 关键词：H.264 去块滤波

PartitionSim:一个面向众核结构的并行模拟器被引量：2: 2011年; 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%.; 焦帅徐卫志唐士斌范东睿孙凝晖

一种基于GPU的二维离散多分辨率小波变换加速方法被引量：3: 2015年; 针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求,提出一种基于GPU的并行小波变换算法,并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术,利用多Kernel并行提高多种分辨率下小波变换的性能.实验结果表明,与CPU串并行版本相比,GPU并行优化算法在高分辨率变换情况下,加速比最高可达30~60倍,可满足对变换实时性的要求.; 刘磊张子佳刘雷张睿; 关键词：小波变换多分辨率 GPU加速

众核处理器高效片上访存机制研究: 日益加剧的Memory Wall问题成为限制处理器性能进一步提高的主要因素之一,片上可配置SRAM可以更灵活地发挥和利用程序访存的局部性,从而引入众核处理器的设计当中。为充分发挥这种优势,针对片上可配置SRAM的访存队列...; 范灵俊安述倩李杨张浩王达范东睿; 关键词：矩阵乘; 文献传递

Bellman-Ford算法性能可移植的GPU并行优化被引量：7: 2015年; 提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明：本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。; 刘磊王燕燕申春李玉祥刘雷

体系结构内可编程数据平面方法被引量：2: 2017年; 随着互联网与云计算的发展,越来越多的应用被从本地迁移到云端,这些应用最终被运行在共享的数据中心.受到数据中心应用复杂并且需求多变特征的影响,传统体系结构中的部分硬件部件(如共享末级缓存、内存控制器、I/O控制器等)固定功能的设计不能很好地满足这些混合多应用的场景需求.为满足这类应用场景的需求,计算机体系结构需要提供一种可编程硬件机制,使得硬件功能能够根据应用需求的变化进行调整.提出了一种可编程数据平面方法:通过在现有硬件部件中增加可编程处理器,使用执行固件代码的方式对硬件的请求进行处理,并通过更新数据平面处理器固件的方式实现硬件功能的扩展.该方法在FPGA原型系统中进行验证,其结果表明,该方法并没有给系统性能带来严重的影响,只使用有限的资源即可为硬件增加更为灵活的可编程能力,使其能够适应应用需求复杂多变的场景.; 马久跃余子濠包云岗孙凝晖; 关键词：处理器数据中心服务器服务质量

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有 @ 渝北区图书馆 2016－2018 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张