科技信息

H100最强竞品正式发布！推理快1.6倍，内存高达192GB，来自AMD

丰色发自凹非寺量子位 | 公众号 QbitAI这一夜，AI科技圈热闹非凡：谷歌搬出“蓄谋已久”的大杀器Gemini，号称直接掀翻GPT-4；另一边，芯片商AMD也按耐不住，正式发布Instinct MI300X GPU，直接对标英伟达H100。Ins

丰色发自凹非寺

量子位 | 公众号 QbitAI

这一夜，AI科技圈热闹非凡：

谷歌搬出“蓄谋已久”的大杀器Gemini，号称直接掀翻GPT-4；

另一边，芯片商AMD也按耐不住，正式发布Instinct MI300X GPU，直接对标英伟达H100。

Instinct MI300X是AMD有史以来最大的芯片——

包罗1530亿个晶体管，AI任务推理性能比H100快1.6倍，内存容量足足192GB，是H100的两倍以上（2.4x）。

它的出现，无疑为业界提供了颇有竞争力的第二种选择。

消息称，微软、Meta、OpenAI和Oracle等一众公司已率先答应将购买AMD的这款GPU来更换H100。

AI加速芯片的市场，是否就此开始改变？

推理性能比H100 HGX快1.6倍，最高支持2900亿参数

AMD在6月就预告了这款芯片，本日是正式发布，公布参数等细节。

据先容，Instinct MI300X是AMD利用有史以来开始进的生产技能打造，是Chiplet筹划方法的“代表之作”。

它的底层是4个6nm I/O芯片，上面融合了8个HBM3内存（12Hi堆栈）和8个5nm CDNA 3 GPU小芯片（3D堆栈）。

此中3D堆叠GPU和I/O芯片通过“3.5D”封装技能举行毗连。

终极成品功耗750W，包罗304个盘算单位、5.3TB/s带宽，以及高达192GB的HBM3内存（相比之下，H100仅80GB）。

在现实的天生式AI平台应用中，MI300X被筹划为8个一组，通过Infinity Fabri举行互联，各GPU之间的吞吐量为896 GB/s。

同时，这一组合的内存总量到达1.5TB HBM3（H100为640GB），可提供高达10.4 Petaflops的盘算性能 (BF16/FP16)。

与英伟达的H100 HGX平台 (BF16/FP16) 相比，内存总量增长2.4倍，盘算本事进步1.3倍。

与此同时，AMD还为MI300X配备了400GbE网络并支持多种网卡，比英伟达的选择更多。

下面是AMD分享的官方性能测试效果（理性参考）。

起首，对于HPC工作负载，MI300X的FP64和FP32向量矩阵理论峰值吞吐量是H100的2.4倍；对于AI工作负载，其TF32、FP16、BF16、FP8和INT8理论峰值吞吐量是H100的1.3倍。

留意，这些推测都不包罗奇怪性（只管MI300X确实支持）。

其次，AI推理使掷中，AMD以1760亿参数的Flash Attention 2为例，声称MI300X在吞吐量（tokens/s）方面比H100高出1.6倍，同时，在700亿参数的Llama 2上，谈天耽误更慢，比H100快1.4倍（基于2k序列长度/128token workload）。

不得不说，MI300X的大内存容量和带宽确给它带来了这一不小的上风。

相比之下，在练习任务上，MI300X在300亿参数的MPT上的性能倒是与H100 HGX大抵类似。

以是总的来看，MI300X的上风更在于推理。

别的，还必要夸大的是，MI300X由于内存容量着实更大，因此可以容纳比H100多两倍的300亿参数练习模子、700亿参数的推理模子。

以及MI300X最多可支持700亿练习和2900亿参数的推理模子，这都比H100 HGX多一倍。

末了，大伙最关心的代价——苏妈没说，但体现“肯定、必须低于英伟达”。

现在，AMD已经向HPE、戴尔、遐想、SuperMicro等原始装备制造商发货，正式发售时间定于下季度，也就是来岁。

说到2024年，AI加速芯片市场将无比热闹：

除了AMD的MI300X，英特尔也将升级其Gaudi架构GPU，以及英伟达H200也要在2024年Q2问世。

Tomshardware体现，H200在内存容量和带宽方面大概率会更上一层楼，盘算性能则预计将和MI300X差不多。

末了，在发布会上，苏妈也推测，2027年AI芯片总市场将到达4000亿美元。而她以为，AMD有信心从中分走一块还不错的蛋糕（get a nice piece of that）。

环球首款数据中心APU也来了

本场发布会上，和Instinct MI300X一共亮相的另有Instinct MI300A。

前者专供天生式AI范畴，后者则重要用于HPC盘算。

据悉，MI300A是环球首个数据中心APU，CPU和GPU联合在同一个封装之中，对标的是英伟达Grace Hopper Superchips ，后者CPU和GPU位于独立的封装中，再串联到一起。

详细而言，MI300A接纳和MI300X类似的根本筹划和方法，但包罗3个5nm焦点盘算芯片（CCD），每个配备8个Zen 4 CPU，以是一共24线程CPU焦点，外加228个CDNA 3盘算单位。

内存容量上，相比MI300X中的8个12Hi堆栈，它改为8个8Hi堆栈，从而将容量从192GB缩减至128G，内存带宽仍为5.3TB/s。

如许的效果仍旧是英伟达Nvidia H100 SXM GPU提供的1.6倍。

据悉，MI300A已开始用于美国劳伦斯利弗莫尔实行室，基于该芯片，该实行室的El Capitan有望成为天下首台2 Exaflop级别的超等盘算机。

One More Thing

就在同一天，谷歌也发布了最新AI芯片：TPU v5p。

它重要和前代相比：

bfloat16性能提升至1.67倍，内存容量增至95GB，新增int8运算，速率为918 TOPs等等。

详细到模子上，用它练习一个类似GPT-3的1750亿参数模子的性能将进步2.8倍。

参考链接：

[1]https://www.tomshardware.com/pc-components/cpus/amd-unveils-instinct-mi300x-gpu-and-mi300a-apu-claims-up-to-16x-lead-over-nvidias-competing-gpus

[2]https://www.cnbc.com/2023/12/06/meta-and-microsoft-to-buy-amds-new-ai-chip-as-alternative-to-nvidia.html

[3]https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer

收藏邀请

上一篇：靠拼多多赚最多钱的投资人下一篇：谷歌发布Gemini后惹质疑；美团直播短视频对抗抖音

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

H100最强竞品正式发布！推理快1.6倍，内存高达192GB，来自AMD

推理性能比H100 HGX快1.6倍，最高支持2900亿参数

环球首款数据中心APU也来了

One More Thing

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端