放眼当下,到底哪个芯片跑满血DeepSeek是最快的? 答案很意外——不是你以为的英伟达,而是一家国产GPU。 由于如今它的速度,已经直接来到了100 tokens/s! 这个速度相比国外GPU的50 tokens/s和国内的15 tokens/s,已经称得上是快上了一个数量级。 若是将三者放在一起同时运行,结果会更加一清二楚。 当中心的国产GPU以行云流水之势给出了完备准确答案之际,两边的“选手”则是还在深度思索过程中: 那么这个国产GPU到底是谁? 不卖关子,它就是摩尔线程。 但这时肯定有许多小同伴会问了,从成立到如今不到5年时间,摩尔线程的何以取得如此速度。 在量子位相识完其在“算力之道”的全貌之后发现,答案,远比“做出一颗更快的芯片”要宏大和深刻。 已经造了个AI超等工厂没错,这是由于摩尔线程在搞算力这件事儿上,已经给自家打造了一个AI超等工厂(AI Foundry)。 提到Foundry这个单词,许多人第一反应或许就是造芯片时的“晶圆厂”,它的代价取决于生产芯片的良率、产能和工艺先辈性。 但AI超等工厂,它并非指代一个物理上生产芯片的晶圆厂,而是一个类比的概念: 这个AI工厂的进化,就像升级制程一样,绝不是改改某个单一技术就完事儿了,而是一个体系性、全方位的厘革。 它要求整个技术栈“洗手不干”:从最底层的芯片架构必须革新、到集群的整体架构得巧妙筹划,再到软件层面——算法怎么调更智慧,资源调理怎么跑更高效,每一个环节都至关重要。 正是这种从根儿上动起来的根本办法大改造,才气真正释放AI算力,实现大规模“生产”和“迭代”前沿AI大模子。 须要夸大的一点是,要建成这样一座超等工厂,绝非暴力地将成千上万张显卡堆砌在一起这么简单。 它须要五大核心要素的精密耦合与协同进化,缺一不可; 这个AI工厂的产能,用一套公式可概括为: AI工厂生产效率 = 加速盘算通用性 × 单芯片有用算力 × 单节点效率 × 集群效率 × 集群稳固性 摩尔线程正是围绕这五大要素,构建了技术护城河。 全功能GPU:超等工厂的基石 AI超等工厂的基石,指的是一颗具备强大通用性的“全功能GPU”。由于回顾算力的进化史,实在就是一部全功能GPU的发展史。 从最初只能加速3D图形的“显卡”(VGA Card),到开放编程接口、答应开发者创造无穷大概的“今世图形处置惩罚器”,再到被广泛应用于超算、深度学习、区块链等范畴的通用盘算平台,GPU的每一次飞跃,都源于其通用性的拓展。 单一功能的加速器,如早期的3D加速卡或本日的某些专用AI芯片(ASIC),虽然在特定任务上效率极高,但其机动性差、编程困难,无法顺应AI模子日新月异、应用场景层出不穷的发展趋势。 一个AI模子大概既须要处置惩罚语言,也须要明白图像,乃至要举行物理天下的模拟。如果工厂的“机床”只能处置惩罚一种任务,那么它很快就会被淘汰。 因此,摩尔线程从创立之初就对峙打造真正的全功能GPU,既要“功能完备”,也要“精度完备”。 首先是“功能完备”,即芯片内部集成了四大核心引擎:
其次,“全盘算精度”覆盖。从FP32、FP16到业界前沿的FP8,以致更低精度的INT8/INT4,完备的精度支持让开发者可以根据差别任务的需求,在性能和精度之间找到最佳平衡点。 特别是在大模子训练中,混淆精度训练已是标配,而摩尔线程是国内极少数可以或许提供FP8训练能力的平台。“全功能”和“全精度”能力,确保了摩尔线程的GPU这座“机床”可以或许承接各类AI模子生产订单。 MUSA统一体系架构:超等工厂的“总筹划师” 如果说全功能GPU是工厂的机床,那么MUSA就是整个工厂的“总筹划师”。一个良好的顶层架构,可以或许决定一家公司未来十年乃至更长时间的技术路线和发展潜力。 MUSA的核心理念是“一个架构,万千应用”(One Architecture for Many Applications)。它采用创新的多引擎、可伸缩、可设置的统一体系架构,将GPU内部的盘算、通讯、内存、调理等功能举行顶层筹划和统一管理。 先来看可伸缩,顾名思义,MUSA架构是可以根据差别客户、差别市场的需求,快速裁剪出优化的芯片设置,大幅低落了新品芯片的开发成本。 其次,资源全局共享,简单说,就是把全部硬件资源——像盘算核心、内存、通讯这些——都买通,变成一个大资源池,然后用智能调理机动分配。 这招儿直接解决了大题目:以前那种单引擎GPU,多个任务一起跑的时间特别容易卡。如今好了,全部资源各人共享,按需取用! 再比方,统一编程接口与指令集,开发者只需学习一套API和编程模子,就能驱动MUSA架构下全部的硬件引擎,极大地低落了开发门槛,提升了开发效率。 除此之外,MUSA架构内部包罗了多个摩尔线程自研的核心技术。 比方,专门为FP8筹划的“Transformer引擎”,使其FP8的训练性能相比没有该引擎的方案能提升30%;独创的ACE异步通讯引擎,可以让盘算和通讯并行不悖,解决了传统架构中通讯会占用盘算资源的痛点,淘汰了15%的盘算资源消耗,将GPU的算力释放;自研的MTLink2.0互联协议,实现了GPU之间高效、低延长的通讯,提供了高出国老手业均匀程度60%的带宽,为大规模集群摆设奠基了结实根本。 MUSA架构的先辈性,确保了摩尔线程的每一颗芯片都不是孤立的算力单元,而是一个高度协同、管理高效的“作战小组”,有用提升每颗芯片有用算力,为整个AI超等工厂提供了结实的、可扩展的算力底座。 MUSA全栈体系软件:超等工厂的“操作体系”与“工具箱” 再好的硬件,若是没有高效的软件,同样也无法发挥其全部潜力。因此,摩尔线程打造了与MUSA硬件架构深度耦合的全栈软件体系,它在AI超等工厂中扮演着“操作体系”和“开发者工具箱”的角色。 这个软件栈可以说是覆盖了从底层驱动到上层应用框架的方方面面:
这套全栈体系软件,确保了开发者不仅能“用起来”,更能“用得好”,将MUSA硬件架构的强大能力顺畅地转达到上层应用,是毗连硬件与算法的关键枢纽。而且通过MUSA全栈体系软件的优化,摩尔线程实现了“单节点盘算效率”全面提升。 KUAE盘算集群:超等工厂的“生产车间” 单卡、单节点的性能再强,也无法完成动辄千亿、万亿参数大模子的训练。AI超等工厂必须以大规模集群的情势存在。为此,摩尔线程构建了夸娥(KUAE)大规模智能盘算集群。 夸娥盘算集群远非简单的服务器堆叠,它是一个软硬一体化的体系工程,相当于AI大模子的“生产车间”:
通过夸娥盘算集群,摩尔线程将单点的GPU性能优势,乐成扩展到了千卡、万卡以致更大规模的集群层面,构建起了一个真正具备强大“生产力”的AI超等工厂。而且通过实测,KUAE 2大规模智算集群,在差别架构模子的MFU,已经到达了行业领先程度。 零制止容错技术:超等工厂的“安全生产协议” 对于一个须要7x24小时不间断运行的AI超等工厂来说,稳固性压倒齐备。一次意外的宕机,大概意味着数百万美元的丧失和数周工作的付诸东流。因此,摩尔线程开发了独有的“零制止容错技术”,这是保障工厂稳固运行的“安全生产协议”。 传统的容错机制,在硬件(如GPU卡)发生故障时,须要停息整个训练任务,人工替换硬件,再从近来的Checkpoint恢复,整个过程耗时耗力。而摩尔线程的零制止技术则完全差别:
总结来看,上述的五大要素,即全功能GPU、MUSA架构、全栈软件、KUAE集群、零制止容错技术,共同构成了摩尔线程的AI超等工厂。 它是一个有机的整体,从芯片筹划的最底层到集群管理的最上层,环环相扣,协同进化。正是这个完备的、端到端的体系,才作育了文章开头的性能表现。 那么接下来的一个题目是: 为什么要造AI超等工厂?这个题目的答案,或许植根于摩尔线程对盘算革命已往、如今与未来的深刻洞察。 十年前,以人脸辨认、主动驾驶为代表的“感知AI”大发作,催生了第一批AI巨头。而从2022年ChatGPT横空出世至今,我们正处在“天生式AI”的指数级发作期。 大模子的“智商”迭代速度令人咋舌,从客岁还在人类均匀程度的四五非常,到如今顶尖模子已经飙升至七八非常,直逼人类顶尖水准。 模子的迭代速度,也从已往的数月一更,压缩到如今的数周乃至每周一更。这场比赛的背后,驱动力只有一个——算力。 正如马斯克可以或许依附其20万张H100,让Grok模子在短时间内登顶排行榜,这残酷地展现了一个究竟:Scaling Law是AI发展的铁律。 谁拥有更大、更强的算力根本办法,谁就能更快地迭代模子,抢占技术和市场的制高点。 而预测未来五年,Agentic AI(智能体AI)和空间智能将成为新的发作点。AI将不再仅仅是谈天的工具,而是成为可以自主完成复杂任务的“数字员工”,并与物理天下深度融合。 这齐备,都意味着对算力的需求将再次呈几何级数增长。在这样的大配景下,仅仅满意于当下的盘算能力是远远不敷的,必须为未来更加巨大的盘算需求做好准备。 面对永无止境的算力需求,仅仅寻求“快”是单方面的。未来的盘算,更须要的是全方位的“稳”——稳固、可靠、高效、通用。 这正是建设AI超等工厂的根本缘故原由。 训练一个万亿参数的大模子,好比建造一座港珠澳大桥,是一项极其复杂的体系工程。它对根本办法的要求,堪比建造一座芯片晶圆厂。 你不能指望靠“人海战术”,找十亿个儿童去抬起一栋大楼;同样,你也不能简单地将一万张低效的显卡堆在一起,就渴望能训练出高质量的大模子。 这个过程布满了挑衅,比方在成本方面,一次大规模训练动辄耗费数月和数百万美元,任何制止或失败都是巨大的丧失。 再如面对复杂的体系,上千个节点、上万颗芯片如何高效通讯、同步?软件和硬件如何完美适配?又该如何快速定位和解决题目? 还有在现实应用过程中,通常任务又是多样性的:本日训练语言模子,来日诰日大概就要处置惩罚多模态数据,后天又要举行科学盘算…… 这些挑衅,都无法通过购买单一的“最快芯片”来解决。它须要一个从底层硬件到上层软件,再到集群管理和运维服务的端到端解决方案。 这恰好是摩尔线程“AI超等工厂”的核心代价所在——它提供的不是孤立的算力,而是一种确定性的、高效率的、高乐成率的AI模子生产能力。 总而言之,摩尔线程选择了一条最困难,但大概也是最精确的门路。他们没有满意于在某个单点上追赶或逾越,而是驻足于未来,从根本上思索如作甚这个期间提供开始进的“生产力工具”。 这,就是摩尔线程给出的答案,一个不止于快,更关乎未来的答案。 |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP