快捷导航
科技信息

算力芯片,终局之战?

编者按写本日这篇文章的时间,我心田是焦急的,乃至有点灰心。中国的芯片界同仁,不可谓不积极:充满困难险阻的工作,数十年如一日的煎熬,直面国际巨头的竞争。在芯片详细产物层面,别人有性能上风,我们有代价上风

编者按

写本日这篇文章的时间,我心田是焦急的,乃至有点灰心。

中国的芯片界同仁,不可谓不积极:充满困难险阻的工作,数十年如一日的煎熬,直面国际巨头的竞争。在芯片详细产物层面,别人有性能上风,我们有代价上风。不敢说能打个你来我往,但至少尚有还手之力。

然而,在盘算生态方面,我们则完全没有招架之力。盘算生态就像一只无形的手,抹去了我们仅有的一点大概的时机,拦截着我们进步的步调,让我们间隔天下先辈越来越远。

更令人焦急的是将来:一方面,盘算生态的作用在不停地增强;另一方面,差别范畴差别处置惩罚器的盘算生态有进一步融合的趋势,渐渐形成新的超等生态。两相叠加,一旦超等生态渐渐创建,后进者再无翻身的大概。

将来5-10年,大算力芯片,将迎来终局之战。


1 盘算架构的发展趋势

1.1 盘算架构的发展阶段

随着算力需求越来越高,同构CPU的业务场景越来越少,基于GPU或AI等DSA处置惩罚器的异构盘算已经成为主流。从发展的角度看,随着大模子等算力场景的一连挑衅,将来会进一步从异构盘算走向异构融合盘算。

如果按照处置惩罚器范例的数量举行分类,可以分为三个阶段:

  • 第一阶段,单个处置惩罚器,即CPU同构盘算阶段。

  • 第二阶段,两个处置惩罚器,即CPU+GPU或CPU+其他专用加速处置惩罚器的异构盘算阶段。

  • 第三阶段,三个或三个以上处置惩罚器,即多异构或异构融合盘算阶段。

行业在创新处置惩罚器的筹划和实现方面举行了许多探索,好比存算一体、重构盘算、类脑盘算、量子盘算等等。这些新型的盘算架构筹划或实现方法,从体系指令复杂度的视角,可以归属到DSA或ASIC的范畴。因此,这些创新,没有跳脱异构融合盘算的大框架。

以我现在浮浅的熟悉,个人以为:异构融合盘算,将是盘算架构的终极形态。

1.2 CPU同构,单个处置惩罚器,单个生态

固然仅仅只有一个处置惩罚器,但其盘算生态已经是地狱级难度。

Intel x86架构的上风,是在浩繁处置惩罚器架构的厮杀中渐渐建立的。随着x86的上风职位建立,基于x86架构的软件生态渐渐成熟,即便是Intel自己,也无法改变这一局面。

Intel的64位安腾(Itanium)处置惩罚器,是一个非常典范的失败的案例。安腾是Intel于2001年推出的64位架构的CPU处置惩罚器,Intel对之寄予厚望。固然是Intel的亲儿子,固然是功能强大的64位CPU架构,固然安腾的架构和微架构筹划非常良好,但由于和x86的不兼容,完全一个新的生态,不可克制的走向了失败(2021年7月29日是安腾处置惩罚器末了的出货日期,英特尔正式告别了这款利用IA-64指令集的纯64位处置惩罚器)。

与此形成光显对比的,是AMD64的乐成。2003年,AMD推出了业界首款 64 位处置惩罚器 Athlon 64,带来了AMD64(x86-64)指令集,即x86指令集的64位扩展超集,具备向下兼容的特点。由于向下兼容,继续性地往前发展,终极成绩了AMD64的乐成。

1.3 GPU异构,两个处置惩罚器,两个生态融合

相对于Intel的x86 CPU盘算生态是百家争鸣的胜者,NVIDIA GPU的CUDA生态,则是数年孤独后的一鸣惊人。

在NVIDIA GPGPU之前,GPU真的就只是GPU,即专用于图形盘算的加速卡。这一时期的GPU,符合DSA的界说规范,可以看成是专用于图像范畴的G-DSA。直到NVIDIA GPGPU的出现。

2006年,NVIDIA发布GPGPU。NVIDIA发现,图像处置惩罚有许多并行处置惩罚的部件,于是决定将这些专用的处置惩罚完全改造成通用的高效能小CPU核,于是GPGPU诞生了。固然此时,GPGPU已经富足通用,但其编程难度很高,于是NVIDIA又知心地开发了CUDA盘算框架。即便云云,早期的CUDA功能并不强大,开发仍旧不敷友好。许多开发者并不看好,以为CPU多核才是精确的发展蹊径。

直到2012年,Alexnet的问世,深度学习期间的到临,NVIDIA GPU+CUDA才成了热门的盘算平台,助推着NVIDIA市值逾越一众竞争对手,成为环球市值第一的芯片公司。再紧接着,2018年,AI大模子渐渐盛行。进一步把这股海潮推向高潮,NVIDIA GPU一时间“洛阳纸贵”,同时,NVIDIA的市值突破了万亿美金大关。

我们再来看CPU和GPU的融合。

2022年初,NVIDIA正式公布,收购ARM失败。如果,NVIDIA收购ARM乐成,这场大算力芯片的“战争”,根本上可以提前给出效果:NVIDIA得胜,其他家永无出头之日。幸亏这件事变没有成行,算力芯片“战争”的效果,仍存在变数,这场“战争”仍在继续。

之后,NVIDIA退而求其次,与ARM的深度互助,开发了Grace系列高性能CPU,以及CPU+GPU整合的Grace Hopper系列超等芯片。

2 盘算生态的极度紧张性

在之前,我不停以为Transformer之以是可以大概脱颖而出的最大缘故原由就是那篇论文的标题:“Attention is all you need”,上风泉源于算法自己。迩来一段时间,跟好几位AI范畴的专家交换下来,他们的观点是:有很大一部门缘故原由是由于,Transformer比力好的实现了并行处置惩罚,可以大概最大限度的利用GPU并行的算力,因此才气够实现更大参数规模的大模子,进而得到更好的智能体验。

这个案例可以得到如许一个结论:只有NVIDIA GPU+CUDA生态亲和的模子才气终极走出来;如果不是NVIDIA GPU+CUDA架构和生态友好的模子,哪怕现实效果再好,也受限于模子服从、参数规模和资源等方面的劣势,无法脱颖而出。

大概说,大模子发展,强依靠于NVIDIA的GPU+CUDA盘算生态。

在我的个人观点里,不停以来,都好坏常器重生态的难度和紧张性的。但迩来几年,随着熟悉的进一步加深,我的想法得到了进一步修正。盘算生态很紧张,但已往10年左右的发展,使得盘算生态的紧张性,比我们各人想象的要更加紧张:

  • 一方面,业务快速发展迭代的压力,使得各人更加依靠已有生态的一连优化,而很难迁移到新的平台和生态。

  • 另一方面,盘算从单机盘算走向集群跨集群的分布式盘算,盘算生态的作用得到进一步放大。一是差别盘算节点工作使命之间的协同,二是盘算使命在集群内部差别盘算节点之间可迁移,这些缘故原由进一步强化了盘算生态的“强者更强,弱者更弱”。

  • 尚有一方面,随着异构盘算和异构融合盘算的发展,处置惩罚器之间的协同效应渐渐产生并进一步增大。差别处置惩罚器的单个盘算生态开始发生学反应,渐渐会形成融合的超等生态。

我们定性分析一下:

  • 芯片的难度很高,但生态的难度更高。

  • 假设,在十几年之前,2010年前后,芯片的紧张性和难度是1,盘算生态的紧张性和难度则为10。

  • 假设,随着体系规模的增大,将来5-10年,也就是2030年前后,单个处置惩罚器芯片的紧张性和难度大概上升到10。受业务迭代越来越快的影响,盘算生态的紧张性和难度必要再增长一个数量级,其值约为1,000。

  • 在思量集群/跨集群以及云网边端融合成为主流盘算方式的影响下,盘算生态的紧张性和难度再增长一个数量级,其值进一步上升到10,000。

  • 再随着异构的处置惩罚器越来越多,差别处置惩罚器盘算生态的协同效应凸显,盘算生态的紧张性和盘算难度再增长一个数量级,其值到达100,000。

  • 终极,芯片和盘算生态的紧张性和难度比例变成10:100,000,大概是1:10,000。

3 算力芯片,终局之战

3.1 多异构融合,更多生态的融合

我们来分析一下Intel在多(超)异构和将来异构融合盘算的布局:

  • 起首是各类处置惩罚器。CPU生态,Intel压倒统统;GPU生态,Intel也有自己的产物,也在积极的布局;DSA类的生态,Intel有IPU和IPDK进一步整合和增强。

  • 然后是Intel在多异构融合、跨平台,完全可编程和开放生态方面都举行告终构。Intel于2019年提出超异构盘算概念,随后Intel布局了OneAPI框架、OpenVINO盘算套件、IPDK盘算框架,还发起了OPI开放盘算同盟等。现在,Intel的多异构或异构融合的芯片办理方案还没有公开发布,拭目以待。

Intel现在面临的挑衅是:上面列出的许多内容,Intel提出之后,并没有非常有竞争力的产物去承载。

(注:图片为Altan布局框图,Thor和Altan同等)

NVIDIA在汽车CCU方面,已经布局了Thor超等芯片,其核心盘算部门由数据中心架构的Grace CPU、Ampere GPU、Bluefield DPU构成。一方面算力强劲,把汽车变成了一台超等盘算机;另一方面,其架构跟数据中心处置惩罚器架构完全同等,为将来云边端融合提供了结实的物理底子。

听说,NVIDIA在数据中心的CPU、GPU和DPU三芯片集成的、多种异构融合盘算架构的超等芯片,已经在研发中。

3.2 异构融合,末了一场战争

(在影戏《复仇者同盟》里,大反派灭霸一个响指,宇宙间浩繁生命,瞬间灰飞烟灭。

在GPU范畴,NVIDIA构建了牢不可破的CUDA盘算生态;在DPU范畴,NVIDIA拥有环球最好的DPU芯片,以及功能强大的DOCA盘算框架;高性能网络可以看做DPU的一个紧张的功能子集,NVIDIA拥有环球最好的高性能网络RDMA和独一无二的Infiniband技能,高性能网络是AI大模子训练集群的核心技能;在CPU范畴,NVIDIA和ARM深度互助,抢占了比力有利的生态位。

一根筷子,轻轻地就会被折断;十双筷子,则牢牢地抱成一团,险些牢不可破:

  • 同构盘算的期间,面临的仅仅是一个盘算生态的挑衅;生态劣势的厂家,仍旧有翻盘的大概。

  • 异构盘算的期间,面临的则有两个盘算生态的挑衅,尚有两个处置惩罚器协同生态的挑衅;这个时间,生态劣势的厂家,面临盘算生态的无形之手,已经有点力有未逮。

  • 异构融合盘算期间,盘算平台预计会多达5-10个处置惩罚器,面临的不但仅是5-10个盘算生态的挑衅,更要面临这些处置惩罚器构成的融合盘算超等盘算生态的挑衅;这个时间,会进一步放大盘算生态的“强者恒强,弱者恒弱”效应,生态劣势的厂家,不但无法翻盘,乃至连微小的一点市场份额都很难维持。

在将来5-10年,随着生态的极度紧张性进一步凸显,大算力芯片,即将迎来“终局之战”。

4 唯一大概的破局之道:开放

(在影戏《复仇者同盟》里,奇特博士给钢铁侠伸出了一根手指,意思是说,那一千四百多万分之一的乐成大概性,就在现在。

回到现实,大算力芯片的盘算生态之争,“唯一大概”的破局之道:开放。“唯一”是说,有且仅有这一个办法;“大概”指的是,这个方法固然存在赢的几率,但几率很低很低。

4.1 异构融合盘算,架构必须收敛

指令复杂度越高,单个处置惩罚器引擎覆盖的场景就会越小,全场景覆盖所需的引擎种类就会越多。从CPU到ASIC,处置惩罚器引擎越来越碎片化,构建生态越来越困难。

异构融合盘算期间,集成的处置惩罚引擎范例和数量越来越多,处置惩罚引擎架构越来越多,芯片平台的数量也越来越多,所处的位置(云网边端)也越来越丰富。

办理办法只有一个:让架构收敛。每一个范例或子范例的处置惩罚器,环球全行业可以大概形成尺度的架构和接口。

不确定的是,将来是走向封闭的一家通吃?照旧行业形成共识,各人基于开放架构做产物,行业走向基于产物竞争力的、真正的“公平”竞争?

4.2 除了最强者,开放是其他家的唯一选择

只要你不是第一,第二名能做的也只能是开放。

开放阵营,不但仅会包罗行业里的二线、三线芯片公司,以及广大的Startup公司,还会包罗现在仍处于一线大厂的浩繁着名公司。

从现在看可见的将来,NVIDIA会是末了赢者通吃最有上风的谁人。那么,这个阵营包罗Intel、AMD、高通、博通、Marvell等着名芯片公司,也包罗互联网巨头等芯片的大客户,如苹果、谷歌、微软、华为、阿里、腾讯等,也包罗OpenAI等AI/AGI新贵。对抗巨头的唯一做法,唯有凝结共识,开源开放。

4.3 开放,让各人回到同一起跑线

我们假想一个乌托邦的期间,在这个期间里:

  • CPU范畴,已经是形成共识的开放架构成为主流,好比RISCv占据90%以上市场份额;

  • GPU范畴,也出现了全行业形成共识的开放架构和相应的开源的开发框架;

  • AI、网络、存储等范畴也是云云,均形成磷器自开放的架构和行业生态。

  • 而且,进一步的,行业形成了开源开放的同一的异构融合盘算框架。

那么,这个时间,各人会回到同一个起跑线:靠产物本事语言,而不是依靠无形的手——生态的力气。

收藏 邀请
上一篇:华为麒麟芯片,先逾越四年前的本身下一篇:中国神龙航天器在轨开释物体,美国:是不是把忠诚僚机用到太空?
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP