AI算力专题:AI算力的ASIC之路--从以太坊矿机说起(附下载)
今天分享的是AI系列深度研究报告:《AI算力专题:AI算力的ASIC之路--从以太坊矿机说起》。
(报告出品方:国盛证券)
报告共计:26页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
天下芯片,通久必专,专久必通。回望芯片发展历史,从CPU,到图像与深度学习时代大放异彩的 GPU,再到矿机 ASIC的异军突起,芯片发展一直遵循着上述规律某类需求的爆发,推动通用芯片中的某一功能独立并形成 ASIC,来更好的满足需求,通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,客户的需求决定一切。
大模型算力需求意剧膨胀,推理 ASIC路径逐渐明晰。在GPT的推动下,世界迅速进入了大模型的新纪元。在 Transformer 算法下,算力大小成为了模型选代的关键因素,全球对于算力卡的需求迅速井喷,能够先一步满足算力需求的通用 GPU 变得一卡难求。经过一年发展,大家对于 Transformer 认可度逐渐提升,同时算力的需求持续加速,促使相关 ASIC浮出水面,以谷歌TPU,Grog为代表的优秀 ASIC作品逐渐摸索出了以堆料矩阵乘法核构建“流水线”式处理流程的设计思路,在合弃通用 GPU 冗余小核提高性能的同时,也较好针对Transformer 做了优化。
以矿机为鉴,需求和算法确定性是ASIC起量关键,复盘矿机 AISC发展之路,受益币价上涨,算力需求井喷,且算法固定的比特币在问世的3年内快速完成了矿机的全面 ASIC化。而币价前期走势较弱,算力需求不稳定,且一直存在转POS(停止抢矿)预期的 ETH 则在结束挖矿时仍未完成 ASIC 化。由此可见,稳定且大量的客户需求、算法的确定性,是 ASIC 放量的关键,
软件有望成为算力构筑第三楼。ASIC时代,编译器成为了产品设计的壁垒,如何有效的连接“流水线”中的计算单元与存储,如何在无小核辅助的情况下整理进入计算核的数据,编译器的难度陡然提升。同时,如何在CUDA 生态对第三方“兼容”之路封锁加剧的情况下,做出好用的软件与生态,让用户较为舒适的进行切换,也将成为新进入玩家需要面临的问题。
兼听则明,ASIC是通往 AGI中不可或缺的一环。“硬件的使用者和开发者往往对立”,这一现象似乎正在 AI芯片界再次出现,当下,AI工程师们普遍希望停留在舒适的 CUDA 生态,忽视通用芯片的冗余元件和低效,而芯片架构师们则在努力地创造ASIC架构,降低最底层的计算成本。而最终决定双方胜负的,唯有需求,需求足够大,算力的建设方终将为 ASIC的性价比而买单,需求不明朗,客户则会先采购通用的产品然后继续观望,全局来看,AI的叙事足够宏大,与比特币的一轮完全替代不同,AISC与通用芯片将螺旋发展,通用芯片探索新算法与模型、ASIC将通过降本使得需求得以释放,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强的算法,循环往复,螺旋上升,最终达成AGI的宏伟目标。
什么是 ASIC 芯片
ASIC,全称为 Application Specific Integrated Circuit,中文名为专用集成电路芯片,顾名思义,是一种为了专门目的或者算法而设计的芯片。ASIC 芯片的架构并不固定,既有较为简单的网卡芯片,用于控制网络流量,满足防火墙需求等等,也有类似谷歌 TPU, 昇腾 910B 一类的顶尖 AI 芯片。ASIC 并不代表简单,而是代表面向的需求,只要是为了某一类算法,或者是某一类用户需求而去专门设计的芯片,都可以称之为 ASIC。
展开全文
当下,ASIC 芯片的主要根据运算类型分为了 TPU、DPU 和 NPU 芯片,分别对应了不同的基础计算功能。TPU 即为谷歌发明的 AI 处理器,主要支持张量计算,DPU 则是用于数据中心内部的加速计算,NPU 则是对应了上一轮 AI 热潮中的 CNN 神经卷积算法,后来被大量 SoC 进了边缘设备的处理芯片中。
从芯片大类来看,目前人类的芯片可以被分为 CPU、GPU、FPGA、ASIC 四种大类,其中 CPU 是人类芯片之母,拥有最强的通用性,适合复杂的指令与任务,GPU 则是人类历史上的第一大类“ASIC”芯片,通过大量部署并行计算核,实现了对于异构计算需求的优化。FPGA 芯片则更加强调可编程性,可以通过编程重新配置芯片内部的逻辑门和存储器,但是运算性能较低。ASIC 则完全为某类功能或者算法专门设计,通用性较低的同时,拥有对某一类算法最好的性能。
芯片大势,通久必专,专久必通
从最早的 CPU 独霸天下,到并行计算时代 GPU 的崛起,挖矿时代专用 ASIC 的大放异彩, 我们不难发现,新芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。
通用芯片发现需求、探索需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切,芯片的架构能否满足契合客户的需求,是决定 一个芯片公司能否成功的重要因素。
大模型时代,风来的如此之快,2023 年春节之前,业界还在努力优化复杂的 CNN 算法, 追求模型的小而美,之后随着 GPT 和 OPENAI 的横空出世,将业界热点算法迅速从 CNN 转变为 Transformer,底层运算也变为矩阵乘法。同时由于大模型“大力出奇迹”的特性, 对于算力的需求极速释放,2023 年来看,唯一能够满足用户这一新需求的依然只有较为通用的英伟达芯片,因此,也在这一年多内造就了英伟达 2w 亿美金的传奇市值。
但天下芯片,通久必专,专久必通,当矩阵乘法这一固定运算占据了大部分的大模型运算需求时,通用芯片中的小核心,甚至是向量计算核心,逐渐成为了功耗、成本和延迟的负担,客户终究不会因为单一的矩阵乘法需求,而为通用性去额外买单。因此,从海外大厂到无数业界大佬的创业公司,纷纷加入了“矩阵乘法”ASIC,又或者是大模型 ASIC 的创业浪潮中,在下文中,我们将列举两个较为有代表性的 ASIC 芯片,去看看业界的设计思路与演化方向。
初步专用化:GPU 亦是 ASIC
从历史来看,我们通过剖析 GPU 的结构和其与 CPU 的区别,不难发现,GPU 也是某种 意义上的 ASIC,过去的数据处理任务,通常是单条复杂指令或逻辑运算,但随着图像处理需求的出现,计算过程中往往开始包含大量并行的简单计算,而 CPU 由于核心数量有限,虽然单核能够处理较为复杂的指令,但面对大量简单计算时,运算时间长的缺点逐渐暴露。所以正如前文所说,CPU 作为人类最通用的芯片,带领人类进入并探索了图像时代,紧接着,面对海量释放的 AI 需求,GPU 作为“图像ASIC”横空出世,满足了海量的图像处理需求。
报告共计:26页
海量/完整电子版/报告下载方式:公众号《人工智能学派》