您的位置: 专家智库 > >

范志华

作品数:40 被引量:18H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家高技术研究发展计划国家自然科学基金中国科学院战略性先导科技专项更多>>
相关领域:自动化与计算机技术文化科学电子电信更多>>

文献类型

  • 31篇专利
  • 8篇期刊文章
  • 1篇学位论文

领域

  • 23篇自动化与计算...
  • 1篇电子电信
  • 1篇文化科学

主题

  • 20篇数据流
  • 17篇架构
  • 13篇基于数据
  • 12篇网络
  • 11篇神经网
  • 11篇神经网络
  • 11篇基于数据流
  • 9篇卷积
  • 5篇卷积神经网络
  • 5篇缓存
  • 5篇寄存器
  • 4篇带宽
  • 4篇队列
  • 4篇上网
  • 4篇神经网络计算
  • 4篇片上网络
  • 4篇网络计算
  • 4篇芯片
  • 4篇矩阵
  • 4篇计算装置

机构

  • 40篇中国科学院
  • 4篇中国科学院大...
  • 1篇北京科技大学
  • 1篇北京智芯微电...

作者

  • 40篇范志华
  • 35篇李文明
  • 33篇范东睿
  • 33篇叶笑春
  • 16篇安学军
  • 4篇熊劲
  • 2篇马捷
  • 2篇李晖
  • 2篇唐荣锋
  • 1篇安述倩
  • 1篇王沁
  • 1篇王达
  • 1篇孙凝晖
  • 1篇唐志敏
  • 1篇张浩
  • 1篇王立国
  • 1篇陈欢
  • 1篇孟丹

传媒

  • 2篇计算机研究与...
  • 2篇计算机工程
  • 1篇微电子学与计...
  • 1篇高技术通讯
  • 1篇计算机工程与...
  • 1篇数据与计算发...

年份

  • 5篇2024
  • 8篇2023
  • 5篇2022
  • 12篇2021
  • 5篇2020
  • 1篇2008
  • 1篇2007
  • 1篇2006
  • 2篇2005
40 条 记 录,以下是 1-10
排序方式:
Flex-DMA:支持多模式高效传输的DMA系统设计
2024年
随着数据密集型科学和高通量应用的迅速发展,专用集成电路设计不断涌现,传输系统不再只有数据传输的需求。现有的一些直接存储器访问(Data Memory Access,DMA)设计可以支持高效的矩阵转置传输,但这些设计不能满足复杂的访存模式,也不具有灵活的可配置性,从而降低计算效率。针对这些问题设计了一种可配置的多模式传输系统Flex-DMA,该系统包含可配置的寄存器以及传输通道,拥有基础模式和单指令多数据(Single Instruction Multiple Data,SIMD)模式。因此,Flex-DMA可根据不同的数据传输需求选择不同的传输模式,灵活配置数据规模和数据格式,支持数据向量化转换、矩阵转置传输等功能。在大规模并行模拟框架中对Flex-DMA做性能评估,其结果表明,Flex-DMA在数据向量化处理中可以获得平均5.14倍的加速比。此外,与MT-DMA结构相比,Flex-DMA在矩阵转置传输中可以获得平均2.52倍性能提升。实验证明:Flex-DMA能满足复杂的访存模式和传输需求,在低传输时延下实现数据的重组和预处理。
李德建冯曦王国旋谭浪沈冲飞范志华李文明
关键词:直接存储器访问
面向低精度神经网络的数据流体系结构优化
2023年
数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分�
范志华吴欣欣李文明李文明安学军安学军范东睿
关键词:直接内存访问
一种数据流众核处理器的数据预取方法及处理器
本发明提供了一种数据流众核处理器的数据预取方法及处理器,方法包括:对于待执行的程序,将程序执行所需的数据划分为可预取数据和不可预取数据;对于可预取数据,在程序执行前加载至处理器的片上存储,且在程序执行前将片上存储中存有所...
秦善天李文明范志华安学军叶笑春范东睿
基于数据流架构的稀疏卷积神经网络加速方法及系统
本发明提出一种数据流架构中无效指令检测并跳过执行的方法,适用于数据流架构下稀疏卷积神经网络的加速。该发明对于稀疏神经网络,包括卷积层和全连接层。通过对编译器编译的指令,依据数据特征生成指令标记信息,指令检测单元又依据指令...
吴欣欣范志华轩伟李文明叶笑春范东睿
机群文件系统的评价技术研究
机群结构由于具有良好的可扩展性、可用性、高性价比等优势已经成为高性能计算机的主流结构。然而,由于磁盘访问的性能远落后于CPU、内存和网络传输的性能,使得机群系统的I/O性能往往会成为系统性能的瓶颈。机群文件系统作为解决机...
范志华
关键词:机群文件系统性能评价系统可靠性
一种应用于处理器的分支预测方法以及分支预测器
本发明提供了一种应用于处理器的分支预测方法以及分支预测器,该分支预测方法包括:获取TAGE预测器对分支指令进行分支预测的第一中间参数以及第一预测值;获取GEHL预测器对所述分支指令进行分支预测的第二中间参数以及第二预测值...
范志华王铎汤胜中李文明安学军叶笑春范东睿
一种基于数据流架构的深度可分离卷积融合方法及系统
本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积...
刘天雨吴欣欣范志华李文明叶笑春范东睿
文献传递
数据流计算研究进展与概述被引量:1
2021年
【目的】本文追溯数据流计算的起源,就数据流计算理论和系统的相关研究背景、关键技术展开介绍。【文献范围】本文整理上世纪60年代至今数据流计算相关的研究文献。【方法】从数据流的起源、软件系统、硬件架构研究进展三个方面介绍了数据流计算的重要工作和关键技术。【结果】对数据流计算的发展趋势和挑战进行了分析与总结。【结论】本文将对未来数据流计算的研究提供参考,希望给该领域的研究人员带来一定的启发。
范志华李文明李文明叶笑春
面向数据流架构的SHA算法执行方法、存储介质、电子装置
本发明提供一种面向数据流架构的SHA算法执行方法,对于逻辑左移操作,依次处理数据分量n<Sub>1</Sub>到数据分量n<Sub>I</Sub>。该方法包括:对于寄存器i的数据分量n<Sub>i</Sub>,将其与高位...
范志华谭龙吴欣欣李文明安学军叶笑春范东睿
文献传递
基于数据流架构的稀疏卷积神经网络加速方法及系统
本发明提出一种数据流架构中无效指令检测并跳过执行的方法,适用于数据流架构下稀疏卷积神经网络的加速。该发明对于稀疏神经网络,包括卷积层和全连接层。通过对编译器编译的指令,依据数据特征生成指令标记信息,指令检测单元又依据指令...
吴欣欣范志华轩伟李文明叶笑春范东睿
文献传递
共4页<1234>
聚类工具0