快捷导航
科技信息

举世AI算力报告出炉:LLM最爱A100,谷歌坐拥超100万H100等效算力

新智元报道编辑:KingHZ【新智元导读】举世有多少AI算力?算力增长速率有多快?在这场AI「淘金热」中,都有哪些新「铲子」?AI初创企业Epoch AI发布了最新举世硬件估算报告。AI的物质根本是呆板学习硬件,例如图形处



新智元报道

编辑:KingHZ
【新智元导读】举世有多少AI算力?算力增长速率有多快?在这场AI「淘金热」中,都有哪些新「铲子」?AI初创企业Epoch AI发布了最新举世硬件估算报告。

AI的物质根本是呆板学习硬件,例如图形处置惩罚单元(GPU)和张量处置惩罚单元(TPU)。

据不完全统计,现在举世凌驾140款AI加速器,用于开辟和摆设深度学习期间的呆板学习模子。
Epoch AI带来了举世算力的估计报告,使用公开信息估计了举世呆板学习硬件的现状和趋势。

除了传统硬件厂商英伟达、AMD等纷纷推出加速卡,一些新兴权势开始「造芯」,算力连续提升。

2008至2024年举世呆板学习硬件的盘算本领表示图
除了GPU,硬件范例也丰富了起来。好比,出现了专门处置惩罚张量盘算的TPU(张量处置惩罚单元,Tensor Processing Unit)。
报告的主要结论,总结如下:
  1. 总量每年增长43%,代价降落30%。

  2. 低精度盘算成为主流。

  3. 顶级硬件能效每1.9年翻一番。

  4. 八年间,练习大型模子所需的处置惩罚器数目增长了20多倍。

  5. 举世NVIDIA支持的盘算本领均匀每10个月翻一番。

关键发现:ML硬件的「摩尔定律」

ML硬件每年增长43%

以16位浮点运算衡量,呆板学习硬件的性能以每年43%的速率增长,每1.9年翻一番。32位性能也存在类似的趋势。

优化呆板学习数字格式和张量焦点提供了额外的改进。
驱动因素还包罗晶体管数目标增长和其他半导体制造技能的进步,以及针对AI工作负载的专门计划。这种改进低沉了每FLOP的资本,进步了能源服从,并实现了大规模人工智能练习。

呆板学习硬件在不同精度下的峰值盘算性能

性价比每年提升30%

每美元性能提升灵敏,而且任何给定精度和固定性能水平的硬件每年都会便宜30%。与此同时,制造商不绝推出更强大、更昂贵的硬件。

单元时间单元代价下的FLOP

低精度格式是趋势

在使用针对人工智能盘算优化的张量焦点和数据格式时,GPU通常速率更快。
与使用非张量FP32相比,TF32、张量FP16和张量INT8在总体性能趋势中均匀提供约6倍、10倍和12倍的性能提升。
一些芯片乃至实现了更大的加速。例如,H100在INT8时的速率比在FP32时快59倍。
自推出以来,这些改进约占团体性能趋势改进的一半。随着开辟职员使用这种性能提升,使用较低精度格式(尤其是张量FP16)练习的模子已经变得很常见。

能效每1.9年翻一番

根据汗青数据,顶级GPU和TPU的能效每1.9年翻一番。
就tensor-FP16格式而言,服从最高的加速器是Meta的MTIA(每瓦高达2.1x10^12FLOP/s)和NVIDIA H100(每瓦高达1.4x10^12FLOP/s)。即将推出的Blackwell系列处置惩罚器大概会更有服从,详细取决于其功耗。

模子也各有所爱

在Epoch的数据集中,NVIDIA A100是用于高引用或开始进人工智能模子的最常用的硬件,自觉布以来已用于65个著名ML模子。
其次是NVIDIA V100,用于练习55个著名模子,其次是谷歌的TPU v3,用于47个。
然而,估计NVIDIA H100到2023年底的销量已凌驾A100,因此它大概在不久的将来成为练习模子最受接待的GPU。

不同加速器练习的知名模子数目

2019年至今,不同范畴大模子逊??需算力比力

练习集群规模猛增

用于练习大型语言模子(LLMs)的处置惩罚器数目标显着增长。
  • Google NASv3 RL网络(2016):使用了800个GPU举行练习。
  • Meta Llama 3.1 405B(2024):使用了16,384个H100 GPU举行练习
这意味着在短短八年间,练习大型模子所需的处置惩罚器数目增长了20多倍。

四大「算力帝国」?

谷歌、微软、Meta和亚马逊拥有相当于数十万个NVIDIA H100的AI算力。
这些盘算资源既用于他们内部的AI开辟,也用于云客户,包罗许多顶级AI实行室,如OpenAI和Anthropic。
谷歌大概拥有相当于凌驾一百万个H100的盘算本领,主要来自他们的TPU。
微软大概拥有最大的NVIDIA加速器库存,约为50万个H100当量。
大量的AI盘算本领由这四家公司以外的集团共同拥有,包罗其他云公司如Oracle和CoreWeave,盘算用户如特斯拉和xAI,以及各国政府。
之所以重点介绍谷歌、微软、Meta和亚马逊,因为他们大概拥有最多的盘算本领,而其他公司的数据公开较少。
初步工作发现,停止2024年中,谷歌TPU的总算力约莫是英伟达芯片的30%。

英伟达每年不止翻一番

自2019年以来,NVIDIA芯片的总可用盘算本领约莫每年增长2.3倍,从而可以或许练习越来越大的模子。
也就是说,举世NVIDIA组成的盘算本领均匀每10个月翻一番。
Hopper这一代NVIDIA AI芯片现在占其全部AI硬件总盘算本领的77%。按照这种增长速率,旧的芯片型号在其推出后约莫4年左右,对累计盘算量的贡献往往会低于一半。
请留意,此分析不包罗TPU或其他专用AI加速器,因为这方面的数据较少。TPU大概提供与NVIDIA芯片相当的总盘算本领。

按芯片型号分解,发现现在约莫77%的NVIDIA FLOP/s来自Hopper代际的GPU,如H100。
现在估计NVIDIA GPU可提供4e21 FLOP/s的盘算本领,约相当于400万个H100。

留意:这些估计基于NVIDIA的收入申报文件,并假设不同期间芯片的分布随时间变革的模式与AI集群数据集中的模式类似。

英伟达23-24年季度财报
别的,报告发现自2019年以来,盘算本领的累计总和(考虑折旧)每年增长2.3 倍。
但仅考虑数据中央贩卖额,而忽略NVIDIA收入报告中「游戏」(Gaming)贩卖额带来的盘算本领。

公开数据集

Epoch同时公布了呆板学习硬件数据集和数据分析源代码。

https://epoch.ai/data/machine-learning-hardware-documentation#overview
详细数据分析流程,拜见下列NoteBook。

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing
参考资料:
https://epoch.ai/data/machine-learning-hardware
收藏 邀请
上一篇:阿里拐点将至?下一篇:Anthropic大反击:推理与传统LLM模子联合,挑衅OpenAI
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP