范志华
- 作品数:38 被引量:20H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向低精度神经网络的数据流体系结构优化
- 2023年
- 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分�
- 范志华吴欣欣李文明李文明安学军安学军范东睿
- 关键词:直接内存访问
- 基于数据流架构的稀疏卷积神经网络加速方法及系统
- 本发明提出一种数据流架构中无效指令检测并跳过执行的方法,适用于数据流架构下稀疏卷积神经网络的加速。该发明对于稀疏神经网络,包括卷积层和全连接层。通过对编译器编译的指令,依据数据特征生成指令标记信息,指令检测单元又依据指令...
- 吴欣欣范志华轩伟李文明叶笑春范东睿
- 机群文件系统的评价技术研究
- 机群结构由于具有良好的可扩展性、可用性、高性价比等优势已经成为高性能计算机的主流结构。然而,由于磁盘访问的性能远落后于CPU、内存和网络传输的性能,使得机群系统的I/O性能往往会成为系统性能的瓶颈。机群文件系统作为解决机...
- 范志华
- 关键词:机群文件系统性能评价系统可靠性
- 一种应用于处理器的分支预测方法以及分支预测器
- 本发明提供了一种应用于处理器的分支预测方法以及分支预测器,该分支预测方法包括:获取TAGE预测器对分支指令进行分支预测的第一中间参数以及第一预测值;获取GEHL预测器对所述分支指令进行分支预测的第二中间参数以及第二预测值...
- 范志华王铎汤胜中李文明安学军叶笑春范东睿
- 一种基于数据流架构的深度可分离卷积融合方法及系统
- 本发明提出一种基于数据流架构的深度可分离卷积融合方法和系统,包括:将输入图像数据、卷积参数从主存DRAM搬运到数据缓存SPM;PE阵列通过从数据缓存SPM中读取该输入图像数据、卷积参数,以执行DW卷积,并将得到的DW卷积...
- 刘天雨吴欣欣范志华李文明叶笑春范东睿
- 文献传递
- 数据流计算研究进展与概述被引量:1
- 2021年
- 【目的】本文追溯数据流计算的起源,就数据流计算理论和系统的相关研究背景、关键技术展开介绍。【文献范围】本文整理上世纪60年代至今数据流计算相关的研究文献。【方法】从数据流的起源、软件系统、硬件架构研究进展三个方面介绍了数据流计算的重要工作和关键技术。【结果】对数据流计算的发展趋势和挑战进行了分析与总结。【结论】本文将对未来数据流计算的研究提供参考,希望给该领域的研究人员带来一定的启发。
- 范志华李文明李文明叶笑春
- 面向数据流架构的SHA算法执行方法、存储介质、电子装置
- 本发明提供一种面向数据流架构的SHA算法执行方法,对于逻辑左移操作,依次处理数据分量n<Sub>1</Sub>到数据分量n<Sub>I</Sub>。该方法包括:对于寄存器i的数据分量n<Sub>i</Sub>,将其与高位...
- 范志华谭龙吴欣欣李文明安学军叶笑春范东睿
- 文献传递
- 基于数据流架构的稀疏卷积神经网络加速方法及系统
- 本发明提出一种数据流架构中无效指令检测并跳过执行的方法,适用于数据流架构下稀疏卷积神经网络的加速。该发明对于稀疏神经网络,包括卷积层和全连接层。通过对编译器编译的指令,依据数据特征生成指令标记信息,指令检测单元又依据指令...
- 吴欣欣范志华轩伟李文明叶笑春范东睿
- 文献传递
- 一种ECDSA算法执行系统及方法
- 本发明提供一种ECDSA算法执行系统及方法,主机端通过数据流芯片进行加密和解密操作,通过网络传输加密信息。本发明相比于现有技术,通过将ECDSA算法移植到数据流架构芯片上,利用了数据流架构芯片低访存需求的特点,加快了EC...
- 范志华秦宏吴欣欣李文明安学军叶笑春范东睿
- 文献传递
- NDP-Ledger:面向区块链应用的通用高通量加速架构
- 2020年
- 区块链技术由于去中心化及不可篡改等特性,广泛应用于数字货币、支付交易等领域,其算法对计算能力和存储访问能力有较高要求,导致传统冯诺依曼结构在面向区块链应用时能效比较低。3D堆叠存储器因可以缓解冯诺依曼结构的访存瓶颈,成为了热门研究方向之一。本文基于3D堆叠存储器技术及数据流执行模式,提出了一种面向区块链应用的高通量近数据处理(NDP)架构,NDP-Ledger。本文深入分析和论证了区块链应用的计算特征及3D堆叠存储技术在区块链应用中的适应性问题,并基于数据流执行模式设计了一种通用的高并发区块链加速体系结构,使区块链加速器在满足通用性的前提下提高处理性能。模拟评估结果表明,本文提出的区块链通用加速器结构,在典型区块链应用处理方面的性能优于主流的CPU和GPU。
- 安述倩李文明李文明范志华吴萌王达张浩王达
- 关键词:区块链数据流