新智元报道 编辑:Aeneas 好困 【新智元导读】ChatGPT背后,是微软超等昂贵的超等盘算机,耗资数亿美元,用了英伟达数万颗芯片。 ChatGPT能成为如今火遍环球的顶流模子,少不了背后超强的算力。 数据表现,ChatGPT的总算力斲丧约为3640PF-days(即假如每秒盘算一万万亿次,必要盘算3640天)。 那么,作为依托的那台微软专为OpenAI打造的超等盘算机,又是怎样诞生的呢? 周一,微软在官博上连发两文,切身解密这台超等昂贵的超等盘算机,以及Azure的重磅升级——到场成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技能。 基于此,微软也官宣了最新的ND H100 v5假造机,详细规格如下: 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个假造机有3.2Tb/s的无壅闭胖树型网络 NVSwitch和NVLink 4.0在每个假造机的8个当地GPU之间具有3.6TB/s的双向带宽 第四代英特尔至强可扩展处理处罚器 PCIE Gen5到GPU互连,每个GPU有64GB/s带宽 16通道4800MHz DDR5 DIMM 数亿美元撑起来的算力 约莫五年前,OpenAI向微软提出了一个大胆的想法——创建一个可以永久改变人机交互方式的人工智能体系。 其时,没人能想到,这将意味着AI可以用纯语言创造出人类所形貌的任何图片,人类可以用谈天呆板人来写诗、写歌词、写论文、写邮件、写菜单…… 为了创建这个体系,OpenAI必要很多算力——可以真正支持起超大规模盘算的那种。 但题目是,微软能做到吗? 究竟,其时既没有能满足OpenAI必要的硬件,也无法确定在Azure云服务中构建如许巨大的超等盘算机会不会直接把体系搞崩。 随后,微软便开启了一段艰巨的探索。 微软Azure高性能盘算和人工智能产物负责人Nidhi Chappell(左)和微软战略互助搭档关系高级总监Phil Waymouth(右) 为了构建支持OpenAI项目的超等盘算机,它斥资数亿美元,在Azure云盘算平台上将几万个Nvidia A100芯片毗连在一起,并改造了服务器机架。 别的,为了给OpenAI量身打造这个超算平台,微软非常经心,不绝在密切关注着OpenAI的需求,随时相识他们在练习AI时最关键的必要。 这么一个大工程,资本究竟是多少呢?微软负责云盘算和人工智能的实验副总裁Scott Guthrie不愿透露详细数量,但他表现,「大概不止」几亿美元。 OpenAI出的困难 微软负责战略互助搭档关系的高管Phil Waymouth指出,OpenAI练习模子所必要的云盘算根本办法规模,是业内亘古未有的。 呈指数级增长的网络GPU集群规模,凌驾了业内任何人试图构建的程度。 微软之以是下定刻意与OpenAI 互助,是由于坚信,这种亘古未有的根本办法规模将改变汗青,造出全新的AI,和全新的编程平台,为客户提供切实符合他们长处的产物和服务。 如今看来,这几亿美元显然没白花——宝押对了。 在这台超算上,OpenAI可以或许练习的模子越来越强盛,而且解锁了AI工具令人赞叹的功能,险些开启人类第四次工业革命的ChatGPT,由此诞生。 非常满足的微软,在1月初又向OpenAI狂砸100亿美元。 可以说,微软突破AI超算边界的雄心,已经得到了回报。而这背后表现的,是从实验室研究,到AI财产化的变化。 如今,微软的办公软件帝国已经初具规模。 ChatGPT版必应,可以帮我们搜索假期安排;Viva Sales中的谈天呆板人可以帮营销职员写邮件;GitHub Copilot可以帮开发者续写代码;Azure OpenAI 服务可以让我们访问OpenAI的大语言模子,还能访问Azure的企业级功能。 和英伟达联手 着实,在客岁11月,微软就曾官宣,要与Nvidia联手构建「天下上最强盛的AI超等盘算机之一」,来处理处罚练习和扩展AI所需的巨大盘算负载。 这台超等盘算机基于微软的Azure云根本办法,使用了数以万计个Nvidia H100和A100Tensor Core GPU,及其Quantum-2 InfiniBand网络平台。 Nvidia在一份声明中表现,这台超等盘算机可用于研究和加速DALL-E和Stable Diffusion等天生式AI模子。 随着AI研究职员开始使用更强盛的GPU来处理处罚更复杂的AI工作负载,他们看到了AI模子更大的潜力,这些模子可以很好地明确渺小差别,从而可以或许同时处理处罚很多差别的语言使命。 简朴来说,模子越大,你拥有的数据越多,你能练习的时间越长,模子的精确性就越好。 但是这些更大的模子很快就会到达现有盘算资源的边界。而微软明确,OpenAI必要的超等盘算机是什么样子,必要多大的规模。 这显然不是说,单纯地购买一大堆GPU并将它们毗连在一起之后,就可以开始协同工作的东西。 微软Azure高性能盘算和人工智能产物负责人Nidhi Chappell表现:「我们必要让更大的模子练习更长的时间,这意味着你不光必要拥有最大的根本办法,你还必须让它长期可靠地运行。」 Azure环球根本办法总监Alistair Speirs表现,微软必须确保它可以或许冷却全部这些呆板和芯片。好比,在较凉快的天气下使用外部氛围,在酷热的天气下使用高科技蒸发冷却器等。 别的,由于全部的呆板都是同时启动的,以是微软还不得不思量它们和电源的摆放位置。就像你在厨房里同时打开微波炉、烤面包机和吸尘器时大概会发生的情况,只不外是数据中央的版本。 大规模AI练习 完成这些突破,关键在那边? 困难就是,怎样构建、操纵和维护数万个在高吞吐量、低耽误InfiniBand网络上互连的共置GPU。 这个规模,已经远远超出了GPU和网络装备供应商测试的范围,美满是一片未知的范畴。没有任何人知道,在这种规模下,硬件会不会崩。 微软Azure高性能盘算和人工智能产物负责人Nidhi Chappell表明道,在LLM的练习过程中,涉及到的大规模盘算通常会被分别到一个集群中的数千个GPU上。 在被称为allreduce的阶段,GPU之间会相互互换它们所做工作的信息。此时就必要通过InfiniBand网络举行加速,从而让GPU在下一块盘算开始之前完成。 Nidhi Chappell表现,由于这些工作超过了数千个GPU,因此除了要确保根本办法的可靠外,还必要大量很多体系级优化才气实现最佳的性能,而这是颠末很多代人的履历总结出来的。 所谓体系级优化,此中就包罗可以或许有用使用GPU和网络装备的软件。 在已往的几年里,微软已经开发出了这种技能,在使练习具有几十万亿个参数的模子的本领得到增长的同时,低落了练习和在生产中提供这些模子的资源要求和时间。 Waymouth指出,微软和互助搭档也不绝在渐渐增长GPU集群的容量,发展InfiniBand网络,看看他们能在多大程度上推动保持GPU集群运行所需的数据中央根本办法,包罗冷却体系、不绝止电源体系和备用发电机。 微软AI平台公司副总裁Eric Boyd表现,这种为大型语言模子练习和下一波AI创新而优化的超算本领,已经可以在Azure云服务中直接得到。 而且微软通过与OpenAI的互助,积聚了大量履历,当其他互助方找来、想要同样的根本办法时,微软也可以提供。 如今,微软的Azure数据中央已经覆盖了环球60多个地区。 全新假造机:ND H100 v5 在上面这个根本架构上,微软不绝在继承改进。 本日,微软就官宣了全新的可大规模扩展假造机,这些假造机集成了最新的NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络。 通过假造机,微软可以向客户提供根本办法,根据任何AI使命的规模举行扩展。据微软称,Azure的新ND H100 v5 假造机为开发者提供良好的性能,同时调用数千个GPU。 参考资料: https://news.microsoft.com/source/features/ai/how-microsofts-bet-on-azure-unlocked-an-ai-revolution/ |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP
关于我们|广告合作|联系我们|隐私条款|免责声明| 时代威客网
( 闽ICP备20007337号 ) |网站地图
Copyright 2019-2024 www.eravik.com 版权所有 All rights reserved.


