ADS-NPU芯片计算架构的产品痛点和设计者挑战
2025-02-19 游戏
三幅3 迥然不同CNN物联网网结构、正则表达式计算机该系统与中所用闭包 (Said, 2020)
三幅4 Swin Transformer计算机该系统和三幅像归类训练任务的解答等待时间占总比情形 (Hu, 2021)
ADS-NPU算出体系结构的痛点与面对
举例来说NPU算出体系结构主要是 Spatial反应器物理体系结构,即Spatial PE与世隔绝空间两组侦测器通过NoC,样本总线,或跨PE的物联网来付诸冗余交互。 粗大表面度的可的置计体系结构CGRA是Spatial反应器物理的一种型态,方可的置计的PE Array通过纳秒或不显秒级别可的置计的Interconnect来对接,可以默许的置计液压或者冗余液压运行。 脉动Systolic反应器物理体系结构也是Spatial反应器物理的一类付诸方式将,其主要算出是通过1D或2D算出两组对冗余顺利完变为定向固定流动处置事与愿违反向相加算出结果。举例来说脉动侦测器依旧是另类体系结构之一,中所用的两组宽度为32x32,可以通过去除额外的逻辑学两组来支撑传输新技术与传输样本的稀少算出加限处置以及较低比特的大举进攻算出方式上。
从上所述,NPU算出体系结构的可靠性(throughput/Watt, throughput/area)取决于针对DNN物联网网新技术反向与算出侦测器的表面度匹配度,能否默许特性的置计,以及物联网interconnect上同调与新技术如何薄片tiling相关,意在是必需算出两组的运用于极较低效率与样本连接处的配置极较低效率。表面度可的置计是一个选择,同时可以将侦测器Array+分量Vector+非零Scalar算出两组组合来构变为异构两组和弹性扩展。另外一个可行的置想是选用各不相同的置计宽度的脉动侦测器multi-Pod复合,来消除各不相同DNN的反向消费(CONV, FC, Attention)中所DNN物联网网层与侦测器 线性不匹配关键问题, 降较低并行算出极较低效率。PE算出侦测器或者NPU反应器的物联网,有数直连与常见于式,必须消除算出两组与片上片间打印器的连接处竞争与延迟关键问题。尤其有趣的是脉动侦测器的multi-Pod组合中所,CNN尤其较难66x32侦测器宽度,Transformer尤其较难20x128宽度,总体上比32x32宽度可靠性时会有1.5x以上降较低。物联网的建筑置计方案中所,Crossbar interconnect可以有尤其好的可有带宽,但随着的算出core需求量提高,硬体变为本变为加限度下跌趋势,对比而言H-tree interconnect硬体变为本也非常极较低。2D Mesh interconnect尤其中所用,硬体变为本较低但很难支撑大的运用于计算机该系统或者算出core需求量。对比Ring interconnect而言,Butterfly interconnect可以来作一个尤其好的均衡,这从前Network-on-Chip (NOC)还时会有其它建筑置计选择,本原文在这从前不打算来作深度分析。
ADS-NPU不显算出体系结构的建筑置计面对
ADS正则表达式的迥然不同该系统自上而下体系结构一般有数可移动层,感官层,定位层,对政府层和控制层。DNN在这类心理训练任务和视觉训练任务上取得了巨大的重大突破。DNN物联网网主要有数CNN、Transformer、GAN、GNN和RNN等几类。本原文在这从前主要讨论一下CNN频域反应器和Transformer完整反应器心功能计算机该系统的硬体建筑置计面对与加限付诸。
Multiply-and-Accumulation (MAC)建筑置计
DNN的最反应器心最底层的算出操作分析方法是MAC,即物联网网表达式与分析分析方法反向的点积Dot-Product乘法,以及相加反向,所以减缓点积(即乘积)或者相加器需求量,可以降较低样本协同工作率,人为可以直接降较低能耗比,三幅 5就是这样一个迥然不同的基于加法树的乘积柴油发动机情形。这类付诸在脉动侦测器体系结构上是基本可行的。
三幅5 基于加法树的乘积柴油发动机情形 (Jang 2021)
全部都是连接FC建筑置计
如三幅 6表,偏Memory-bound的FC层中所用在RNN和Max Probability Perception MLP (Transformer)新技术系列从前,样本搬移多,放大器表达式在各不相同轴突的协同工作率少于CNN中所的频域层CONV。对Swin Transformer物联网网体系结构而言,其中所FC表达式占总比时会至少83%,FLOPs算出至少97%。只针对CONV可用性的算出体系结构应用到FC,算出极较低效率人为时会严重减缓。
三幅6 FC算出对比 情形
FC层的算出主要是特性反向的分量与表达式等价的点积。线性分析分析方法也就是大举进攻算出技术,可以传输新技术表达式减缓算出线性。从三幅 7可以看出一个尤其有趣的现象,有数Transformer在内,平均有80%以上的反向在与64个不重复的新技术表达式顺利完变为点积,而且其中所共约44个表达式值在中所用8比特分析分析方法后不时会至少256。这种稀少特性,与DNN新技术检测以及稀少算出体系结构非常相似。这意味着在建筑置计中所可以再考虑用索引来顺利完变为表达式表征和付诸点积乘法。如三幅 8表。基于索引的付诸有助于可以进一步传输新技术减缓打印器带宽运用于,可以将点积乘减缓33%,表达式打印减缓20%。这类可用性付诸在脉动侦测器体系结构上是基本可行的,也可以再考虑来作为单独的Vector算出两组来建筑置计,与Array算出两组顺利完变为异构组合付诸。
三幅7 FC层新技术分析分析方法后 不重复的表达式的合计常见于 (Riera, 2021)
三幅8 CREW 算出协同工作和直接表达式组态的FC建筑置计情形 (Riera, 2021)
Convolution建筑置计
如三幅 6表,对Transformer物联网网而言,CONV和Multi-Head Self-Attention (MHSA)层的算出占总时不多,都归属于等价-等价的乘算出,而FC层归属于等价-分量的乘算出。通常NPU不显算出体系结构将算出两组PE建筑置计变为1D或者2D Array,针对CONV 3x3顺利完变为可用性,对其它频域宽度选用可的置计建筑置计方式上,冗余的建筑置计时会一般来说非常简单,只是算出极较低效率时会较低。这从前值得一提的是,在Transformer (ViT)的物联网网体系结构从前,首先选用了CNN来来作不同之处提取,而且ViT选用了CONV4x4,除此以外NPU硬体算出极较低效率时会继续有少于66%的一般来说下降%。如三幅 9表是一个针对ViT CONV4x4 PE块的建筑置计情形。如三幅 10表是一个针对ViT 的NPU基座体系结构的建筑置计情形。ViT新技术各不相同层中所x7的宽度%置置,另外各不相同层的连接处数都是x96的%,PE4x7的侦测器宽度置置可以和新技术对应顺利完变为直接匹配来算出 频域,其中所每行4个MAC两组,NPU基座情形选用了12个PE块。在每个PE两组从前,每个权值分量从顶到底广播到所有乘法器,每个MAC可以从反向SRAM寄送各不相同的反向来支撑 FC层算出,PE乘法器的结果在水平同方向相加,可以存留到本地缓存留便于后续合计。如三幅 10表,基座体系结构中所将PE反向结果在相加器中所相加,随后在加法器中所求和,其结果时会通过Layer Normalizatio顺利完变为一维或Softmax顺利完变为算出处置,事与愿违结果反向到片外打印器从前。对于 MHSA的算出,Q(Query)等价可以忽视是PE两组块的表达式反向,K(Key)等价可以忽视是PE两组块的样本反向,由于等价宽度小与物联网网其它层多种类型,8个PE两组计算机该系统可以搞定。对于Q等价映射,Q等价的4个列相应到一个PE两组然后按照行-行方式上处置,每行7个时钟等待时间。K转置等价映射,可以安排到7行x 8个PE块顺利完变为算出,12个PE块中所只用了8 个,硬体利用极较低效率一般来说只有66%,但MHSA总的FLOPs占总比不至少新技术的3%,这种极较低效率影响估计不时会至少1%。
三幅 9 CONV4x4 PE块的建筑置计情形 (Wang, 2022)
三幅10 NPU基座体系结构的建筑置计情形 (Wang, 2022)
Integer-Only大举进攻算出建筑置计
如上原文所述,Transformer在ADS正则表达式应用中所的作用越来越有优势,仍然涵盖感官融入对政府控制的每个流程,但Memory-bound的存留算消费对建筑置计有相当大的面对,本原文的技术讨论和建筑置计置想也是聚焦这个方面。如三幅 11表的基于乘法的分析分析方法大举进攻算出手段情形,可以通过Integer-only乘法操作分析方法与bit-shifting位移处置来取代二进制除法来作大举进攻算出。ViT中所的线性乘法有数MatMul和Dense(即上述所说的FC)中所的MAC,可以选用Integer-only流水线操作分析方法+Dyadic Arithmatic可有算术分析方法。ViT中所的非线性乘法有数上原文所所述的Softmax,GELU, LayerNorm,也可以通过一个轻量级的Integer-only算术分析方法来顺利完变为快限大举进攻算出,即ShiftMax和ShiftGELU,来降较低NPU不显体系结构的连续性可靠性。基于乘法的分析分析方法大举进攻算出手段情形,在TVM上的新技术建筑置计,声称可以有将近4倍解答限度降较低,而且三幅 11表的INT8分析分析方法手段,可以取得与FP相当或更极较低的可靠性,表达式的INT4表征也可以是NPU建筑置计的一个可行的发力点。
三幅11 ViT基于乘法 的算出三幅(Li, 2022)
ShiftMax和ShiftGELU硬体大举进攻算出
如三幅 11表,GELU是Transformer中所所用的非线性启动时闭包,可以通过Sigmoid闭包顺利完变为大举进攻(Li, 2022)
对应于Integer-only的大举进攻算出分析方法,可以首先通过Integer Shifting操作分析方法𝐼𝑝 = 𝐼𝑥+ (𝐼𝑥>> 1) + (𝐼𝑥>> 3) + (𝐼𝑥>> 4),将GELU从前的非线性闭包操作分析方法转化变为如下的Softmax闭包
而Softmax闭包是不能直接选用可有算术分析方法的
但Integer-only Softmax可以通过简化大举进攻来建筑置计硬体逻辑学(Li, 2022),首先,对样本常见于和特性覆盖范围顺利完变为光滑操作分析方法必需不溢出
最后,ShiftMax和ShiftGELU都可以通过下面的简化逻辑学顺利完变为硬体大举进攻算出建筑置计(Li, 2022)
Layer Normalization硬体大举进攻算出
Transformer中所选用的Layer Normalization (LayNorm),必须特性标准差和期望值统计特性来算出标准偏差,可以选用一种轻量级的乘法数组分析方法(Li, 2022)来付诸
初始值I 0 置为 ,数组到
为止,一般10次左右数组就可以收敛(Life,2022),上述公式的除法可以同样选用比特移位和相加器来付诸,对硬体的简洁建筑置计也非常不利。
关于复睿不显电子
复睿不显电子是世界500强大公司私募控股公司出资置立的技术科技型大公司。复睿不显电子植根于不断创新液压的原文化,通过技术不断创新改变人们的与世隔绝、工作、学习和娱乐方式将。
公司变为立于2022年1月,目标变为为世界遥遥领先的电脑长途跋涉以前的大算力方案网络服务,不遗余力为摩托车电子、人工电脑、通用算出等行业给予以极较低可靠性微处置器为基本的消除方案。
现今主要兼职摩托车电脑座舱、ADS/ADAS微处置器研发,以遥遥领先的微处置器建筑置计技能和人工电脑正则表达式,通过底层技术赋能,推动日产摩托车的不断创新发展,降较低人们的长途跋涉体验。在电脑长途跋涉的以前,微处置器是摩托车的大脑。私募电脑长途跋涉控股公司仍未构建了完善的电脑长途跋涉生态,复睿不显是整个生态的通用大算力和人工电脑大算力的基本平台。复睿不显以降较低的产品体验为盼望,在后摩尔定律以前持续通过技术封装、技术制程和消除方案降较低算力,与多家公司共同面对摩托车电脑化的黄金以前。
参考原文献
1. M Dies, and etc., “Understanding the limits of Conventional Hardware Architectures for Deep-Learning”,
2. W. Hu and etc., “Vis-TOP: Visual Transformer Overlay Processor”,
3.M. Said and etc., “Test and Yield Loss Reduction of AI and DL Accelerators”,
4.J. Jang and etc., “Sparsity-Aware and Reconfigurable NPU Architecture for Samsung Flagship Mobile”,
5.M. Riera and etc., “CREW: Computation Reuse and Efficient Weight Storage for Hardware-accelerated MLPs and RNNs”,
6.H. Wang and etc., “Row-wiseAccelerator for Vision Transformer”,
7.Z. Li and etc., “I-ViT: Integer-onlyQuantization for Efficient Vision Transformer Inference”,
。预防子宫内膜薄有哪些方法胃手术后吃什么补品好
小孩子经常便秘怎么办
河北干细胞治疗的医院
小孩脾胃虚弱怎么调理才好
气血虚弱吃什么中成药补得快
佐米曲普坦片功效和作用
视疲劳滴眼液
颈椎病止痛药有哪些
民得维和先诺欣哪个好
上一篇: 2岁娃被泡面烫伤,家人脱衣、涂抹牙膏酱油…心理医生叹息
下一篇: 爱是一种获益,一种精神
- 05-15黄晓明弟弟称救命恩人为英雄,家人将拜访道谢,嫂子几天都没合眼
- 05-15《对手》虽然李小满上集让观众哭惨了,但全剧最惨的还是小婷
- 05-15新东方6万人,59岁俞敏洪退不想休
- 05-15《王牌军队》顾一野发挥失误 师长郑源重伤病危
- 05-15正在一炮而红的6部剧,《风起洛阳》《王牌部队》,你更中意哪一部?
- 05-15热门悍匪片,留下来爽爽爽
- 05-15北京发布工业网络服务发展行动计划,2023年核心产业规模将达1500亿元
- 05-15《武林风》18周年庆典,Beyond登台献唱,虎牙一个大直播
- 05-15一级演员陈道明与初恋结婚四十年,当初遭继父反对,认为:配不上
- 05-15人民日报刊文:筑牢个人隐私的“安全门楼”