科技信息

国产GPU跑满血DeepSeek，已经可以100 tokens/s了！

金磊发自 WAIC量子位 | 公众号 QbitAI放眼当下，到底哪个芯片跑满血DeepSeek是最快的？答案很意外——不是你以为的英伟达，而是一家国产GPU。由于如今它的速度，已经直接来到了100 tokens/s！这个速度相比国外GPU的

金磊发自 WAIC
量子位 | 公众号 QbitAI

放眼当下，到底哪个芯片跑满血DeepSeek是最快的？

答案很意外——不是你以为的英伟达，而是一家国产GPU。

由于如今它的速度，已经直接来到了100 tokens/s！

这个速度相比国外GPU的50 tokens/s和国内的15 tokens/s，已经称得上是快上了一个数量级。

若是将三者放在一起同时运行，结果会更加一清二楚。

当中心的国产GPU以行云流水之势给出了完备准确答案之际，两边的“选手”则是还在深度思索过程中：

那么这个国产GPU到底是谁？

不卖关子，它就是摩尔线程。

但这时肯定有许多小同伴会问了，从成立到如今不到5年时间，摩尔线程的何以取得如此速度。

在量子位相识完其在“算力之道”的全貌之后发现，答案，远比“做出一颗更快的芯片”要宏大和深刻。

已经造了个AI超等工厂

没错，这是由于摩尔线程在搞算力这件事儿上，已经给自家打造了一个AI超等工厂（AI Foundry）。

提到Foundry这个单词，许多人第一反应或许就是造芯片时的“晶圆厂”，它的代价取决于生产芯片的良率、产能和工艺先辈性。

但AI超等工厂，它并非指代一个物理上生产芯片的晶圆厂，而是一个类比的概念：

这个AI工厂的进化，就像升级制程一样，绝不是改改某个单一技术就完事儿了，而是一个体系性、全方位的厘革。

它要求整个技术栈“洗手不干”：从最底层的芯片架构必须革新、到集群的整体架构得巧妙筹划，再到软件层面——算法怎么调更智慧，资源调理怎么跑更高效，每一个环节都至关重要。

正是这种从根儿上动起来的根本办法大改造，才气真正释放AI算力，实现大规模“生产”和“迭代”前沿AI大模子。

须要夸大的一点是，要建成这样一座超等工厂，绝非暴力地将成千上万张显卡堆砌在一起这么简单。

它须要五大核心要素的精密耦合与协同进化，缺一不可；

这个AI工厂的产能，用一套公式可概括为：

AI工厂生产效率 = 加速盘算通用性 × 单芯片有用算力 × 单节点效率 × 集群效率 × 集群稳固性

摩尔线程正是围绕这五大要素，构建了技术护城河。

全功能GPU：超等工厂的基石

AI超等工厂的基石，指的是一颗具备强大通用性的“全功能GPU”。由于回顾算力的进化史，实在就是一部全功能GPU的发展史。

从最初只能加速3D图形的“显卡”（VGA Card），到开放编程接口、答应开发者创造无穷大概的“今世图形处置惩罚器”，再到被广泛应用于超算、深度学习、区块链等范畴的通用盘算平台，GPU的每一次飞跃，都源于其通用性的拓展。

单一功能的加速器，如早期的3D加速卡或本日的某些专用AI芯片（ASIC），虽然在特定任务上效率极高，但其机动性差、编程困难，无法顺应AI模子日新月异、应用场景层出不穷的发展趋势。

一个AI模子大概既须要处置惩罚语言，也须要明白图像，乃至要举行物理天下的模拟。如果工厂的“机床”只能处置惩罚一种任务，那么它很快就会被淘汰。

因此，摩尔线程从创立之初就对峙打造真正的全功能GPU，既要“功能完备”，也要“精度完备”。

首先是“功能完备”，即芯片内部集成了四大核心引擎：

AI盘算加速引擎：不仅能做推理，更能做训练，实现训推一体。
先辈的3D图形渲染引擎：支持DX12等今世图形API，满意游戏、AIGC、数字孪生等视觉盘算需求。
物理仿真与科学盘算引擎：这是常被忽视却至关重要的一环。未来的Agentic AI、空间智能都须要与物理天下交互，强大的科学盘算能力是毗连数字天下与物理天下的桥梁。
超高清视频编解码引擎：AI的盘算结果终极须要通过视觉和听觉出现给人类，高清、低延长的流媒体处置惩罚能力是人机交互体验的保证。

其次，“全盘算精度”覆盖。从FP32、FP16到业界前沿的FP8，以致更低精度的INT8/INT4，完备的精度支持让开发者可以根据差别任务的需求，在性能和精度之间找到最佳平衡点。

特别是在大模子训练中，混淆精度训练已是标配，而摩尔线程是国内极少数可以或许提供FP8训练能力的平台。“全功能”和“全精度”能力，确保了摩尔线程的GPU这座“机床”可以或许承接各类AI模子生产订单。

MUSA统一体系架构：超等工厂的“总筹划师”

如果说全功能GPU是工厂的机床，那么MUSA就是整个工厂的“总筹划师”。一个良好的顶层架构，可以或许决定一家公司未来十年乃至更长时间的技术路线和发展潜力。

MUSA的核心理念是“一个架构，万千应用”（One Architecture for Many Applications）。它采用创新的多引擎、可伸缩、可设置的统一体系架构，将GPU内部的盘算、通讯、内存、调理等功能举行顶层筹划和统一管理。

先来看可伸缩，顾名思义，MUSA架构是可以根据差别客户、差别市场的需求，快速裁剪出优化的芯片设置，大幅低落了新品芯片的开发成本。

其次，资源全局共享，简单说，就是把全部硬件资源——像盘算核心、内存、通讯这些——都买通，变成一个大资源池，然后用智能调理机动分配。

这招儿直接解决了大题目：以前那种单引擎GPU，多个任务一起跑的时间特别容易卡。如今好了，全部资源各人共享，按需取用！

再比方，统一编程接口与指令集，开发者只需学习一套API和编程模子，就能驱动MUSA架构下全部的硬件引擎，极大地低落了开发门槛，提升了开发效率。

除此之外，MUSA架构内部包罗了多个摩尔线程自研的核心技术。

比方，专门为FP8筹划的“Transformer引擎”，使其FP8的训练性能相比没有该引擎的方案能提升30%；独创的ACE异步通讯引擎，可以让盘算和通讯并行不悖，解决了传统架构中通讯会占用盘算资源的痛点，淘汰了15%的盘算资源消耗，将GPU的算力释放；自研的MTLink2.0互联协议，实现了GPU之间高效、低延长的通讯，提供了高出国老手业均匀程度60%的带宽，为大规模集群摆设奠基了结实根本。

MUSA架构的先辈性，确保了摩尔线程的每一颗芯片都不是孤立的算力单元，而是一个高度协同、管理高效的“作战小组”，有用提升每颗芯片有用算力，为整个AI超等工厂提供了结实的、可扩展的算力底座。

MUSA全栈体系软件：超等工厂的“操作体系”与“工具箱”

再好的硬件，若是没有高效的软件，同样也无法发挥其全部潜力。因此，摩尔线程打造了与MUSA硬件架构深度耦合的全栈软件体系，它在AI超等工厂中扮演着“操作体系”和“开发者工具箱”的角色。

这个软件栈可以说是覆盖了从底层驱动到上层应用框架的方方面面：

高效驱动：摩尔线程的驱动颠末深度优化，核函数启动时间收缩50%，任务派发延长极低，可以一次性并发处置惩罚上千个任务，领先业界程度。
核默算子库：对标国际大厂的cuDNN，摩尔线程的muDNN在算子层面举行了大量优化，GEMM算子算力利用率达98%，Flash Attention 算子算力利用率突破95%。

通讯效能跃升：MCCL训练通讯库实现RDMA网络97%带宽利用率；基于异步通讯引擎优化盘算通讯并行，集群性能提升10%。
生态兼容与Triton支持：通过MUSIFY等工具，实现了对PyTorch、TensorFlow等主流AI框架的无缝支持。尤其值得一提的是，基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍，全面兼容Triton等主流框架。
完善的开发者套件：提供了一整套涵盖性能分析（Profiler）、调试、调优、一键摆设等功能的工具链，犹如一个“百宝箱”，让开发者可以或许洞察硬件运行的每一个细节，榨干硬件的每一分性能。

这套全栈体系软件，确保了开发者不仅能“用起来”，更能“用得好”，将MUSA硬件架构的强大能力顺畅地转达到上层应用，是毗连硬件与算法的关键枢纽。而且通过MUSA全栈体系软件的优化，摩尔线程实现了“单节点盘算效率”全面提升。

KUAE盘算集群：超等工厂的“生产车间”

单卡、单节点的性能再强，也无法完成动辄千亿、万亿参数大模子的训练。AI超等工厂必须以大规模集群的情势存在。为此，摩尔线程构建了夸娥（KUAE）大规模智能盘算集群。

夸娥盘算集群远非简单的服务器堆叠，它是一个软硬一体化的体系工程，相当于AI大模子的“生产车间”：

软硬一体化筹划：从服务器节点、互换机到机柜，再到上层的集群管理软件、任务调理体系，全部举行了协同筹划和优化。
创新5D并行训练：摩尔线程整合数据并行（DP）、流水线并行（PP）、张量并行（TP）等全部主流的并行训练计谋，全面支持Transformer等主流架构，并能根据模子特点主动搜索和保举最优的并行方案。
端到端训练优化：覆盖了从数据预处置惩罚、模子预训练、强化学习、微调到验证评估的全流程，提供一站式服务。
性能仿真工具（Simumax）：自主研发的Simumax工具面向超大规模集群主动搜索最优并行计谋，精准模拟FP8混淆精度训练与算子融合，为DeepSeek等模子收缩训练周期提供科学依据。
高效Checkpoint：针对大模子稳固性困难，创新CheckPoint加速方案利用RDMA技术，将百GB级备份恢复时间从数分钟压缩至1秒，提升GPU有用算力利用率。

通过夸娥盘算集群，摩尔线程将单点的GPU性能优势，乐成扩展到了千卡、万卡以致更大规模的集群层面，构建起了一个真正具备强大“生产力”的AI超等工厂。而且通过实测，KUAE 2大规模智算集群，在差别架构模子的MFU，已经到达了行业领先程度。

零制止容错技术：超等工厂的“安全生产协议”

对于一个须要7x24小时不间断运行的AI超等工厂来说，稳固性压倒齐备。一次意外的宕机，大概意味着数百万美元的丧失和数周工作的付诸东流。因此，摩尔线程开发了独有的“零制止容错技术”，这是保障工厂稳固运行的“安全生产协议”。

传统的容错机制，在硬件（如GPU卡）发生故障时，须要停息整个训练任务，人工替换硬件，再从近来的Checkpoint恢复，整个过程耗时耗力。而摩尔线程的零制止技术则完全差别：

零制止容错技术：当某个节点变慢或出现故障时，仅隔离受影响节点组，别的节点继续训练，备机无缝接入，全程无制止。这一方案使KUAE集群有用训练时间占比超99%，大幅低落恢复开销。
多维度训练洞察：通过多维度的数据监控和AI猜测模子，体系可以或许提前感知到哪些节点大概会成为“慢节点”，并举行预警或隔离，实现动态监测与智能诊断，非常处置惩罚效率提升50%；
集群自检及调理优化：在训练任务开始前，体系会主动对整个集群举行“体检”，确保全部软硬件都处于最佳状态，犹如飞机腾飞前的安全检查，训练乐成率提高10%，为大规模AI训练提供稳固保障。

总结来看，上述的五大要素，即全功能GPU、MUSA架构、全栈软件、KUAE集群、零制止容错技术，共同构成了摩尔线程的AI超等工厂。

它是一个有机的整体，从芯片筹划的最底层到集群管理的最上层，环环相扣，协同进化。正是这个完备的、端到端的体系，才作育了文章开头的性能表现。

那么接下来的一个题目是：

为什么要造AI超等工厂？

这个题目的答案，或许植根于摩尔线程对盘算革命已往、如今与未来的深刻洞察。

十年前，以人脸辨认、主动驾驶为代表的“感知AI”大发作，催生了第一批AI巨头。而从2022年ChatGPT横空出世至今，我们正处在“天生式AI”的指数级发作期。

大模子的“智商”迭代速度令人咋舌，从客岁还在人类均匀程度的四五非常，到如今顶尖模子已经飙升至七八非常，直逼人类顶尖水准。

模子的迭代速度，也从已往的数月一更，压缩到如今的数周乃至每周一更。这场比赛的背后，驱动力只有一个——算力。

正如马斯克可以或许依附其20万张H100，让Grok模子在短时间内登顶排行榜，这残酷地展现了一个究竟：Scaling Law是AI发展的铁律。

谁拥有更大、更强的算力根本办法，谁就能更快地迭代模子，抢占技术和市场的制高点。

而预测未来五年，Agentic AI（智能体AI）和空间智能将成为新的发作点。AI将不再仅仅是谈天的工具，而是成为可以自主完成复杂任务的“数字员工”，并与物理天下深度融合。

这齐备，都意味着对算力的需求将再次呈几何级数增长。在这样的大配景下，仅仅满意于当下的盘算能力是远远不敷的，必须为未来更加巨大的盘算需求做好准备。

面对永无止境的算力需求，仅仅寻求“快”是单方面的。未来的盘算，更须要的是全方位的“稳”——稳固、可靠、高效、通用。

这正是建设AI超等工厂的根本缘故原由。

训练一个万亿参数的大模子，好比建造一座港珠澳大桥，是一项极其复杂的体系工程。它对根本办法的要求，堪比建造一座芯片晶圆厂。

你不能指望靠“人海战术”，找十亿个儿童去抬起一栋大楼；同样，你也不能简单地将一万张低效的显卡堆在一起，就渴望能训练出高质量的大模子。

这个过程布满了挑衅，比方在成本方面，一次大规模训练动辄耗费数月和数百万美元，任何制止或失败都是巨大的丧失。

再如面对复杂的体系，上千个节点、上万颗芯片如何高效通讯、同步？软件和硬件如何完美适配？又该如何快速定位和解决题目？

还有在现实应用过程中，通常任务又是多样性的：本日训练语言模子，来日诰日大概就要处置惩罚多模态数据，后天又要举行科学盘算……

这些挑衅，都无法通过购买单一的“最快芯片”来解决。它须要一个从底层硬件到上层软件，再到集群管理和运维服务的端到端解决方案。

这恰好是摩尔线程“AI超等工厂”的核心代价所在——它提供的不是孤立的算力，而是一种确定性的、高效率的、高乐成率的AI模子生产能力。

总而言之，摩尔线程选择了一条最困难，但大概也是最精确的门路。他们没有满意于在某个单点上追赶或逾越，而是驻足于未来，从根本上思索如作甚这个期间提供开始进的“生产力工具”。

这，就是摩尔线程给出的答案，一个不止于快，更关乎未来的答案。

收藏邀请

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

国产GPU跑满血DeepSeek，已经可以100 tokens/s了！

已经造了个AI超等工厂

为什么要造AI超等工厂？

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端