快捷导航
科技信息

开源RISC-V:国产GPU发展新思绪

客岁10月7日,美国政府公布了限定向中国出售半导体技能及装备的全面新步伐,将此前要求AMD、英伟达断供高端GPU芯片的指令正式化,意图将中国半导体彻底锁死在14nm节点。只管现在国内已发展起来多家GPU、GPGPU、AI芯

客岁10月7日,美国政府公布了限定向中国出售半导体技能及装备的全面新步伐,将此前要求AMD、英伟达断供高端GPU芯片的指令正式化,意图将中国半导体彻底锁死在14nm节点。只管现在国内已发展起来多家GPU、GPGPU、AI芯片明星企业,部门产物开始逼近乃至高出了美国头部厂商的性能,但他们的产物不满是依靠国内技能积累形成的,而是大量采取了国外(美国)的技能,IP和职员,而且依靠台积电的先辈制程代工,更存在IP授权不可控的风险。

值得留意的是,一方面美国针对高性能处理处罚器实行入口封锁,拦阻国内AI、超算产业发展,另一方面英伟达不停对当前GPU主流的编程平台CUDA采取闭源的战略,使得其他硬件开发者难以涉足CUDA所占据的范畴。

我国在刚强不移地发展强盛的自主可控高性能芯片的目的下,开源架构是否有渴望成为一条创新路径?

国产CPU发展之路对GPU的思考和鉴戒

CPU和GPU的发展有很多偶尔条件,早期英特尔是一家存储厂商,其转型做CPU芯片劳绩了巨大的乐成;英伟达的GPU卡早期重要用于图形游戏市场,在人工智能的第二次海潮下,成为举世巨大的人工智能芯片厂商;ARM架构处理处罚器来自于英国,重要应用于终端盘算产物,借助智能手机的发展,占据了举世95%手机、平板等终端市场的份额。

举世IT市场已形成Windows+Intel(Wintel)、Android+ARM(AA)的主流生态,而且ARM架构的触手正不停延伸至x86架构的范畴。

数字化期间,为实现盘算芯片的自主可控,十五期间,国家启动发展国产CPU的泰山筹划,863筹划也提出自主研发CPU。2006年核高基专项启动,国产CPU迎来了新一轮的国家支持,以龙芯、飞腾、鲲鹏、海光、兆芯、申威等为代表的国产CPU厂商崛起。通过多年的耕耘,在国际环境、产业政策、市场需求的团结驱动下,上述国产CPU厂商在性能、工艺、生态建立等多个层面不停取得突破,为CPU的自主可控、安全可信构筑了堡垒。

但是也必须认可,现在国产CPU的应用仍旧重要会合在安全、涉密等信创市场,与国外厂商在性能、制造和生态建立等方面都还存在不小差距,在底层协议、技能标准、架构等底子环节仍旧大多数由国外IT巨头牢牢把握,平常使用碰面对诸多安全风险,国际形势动荡则容易受到美国的制裁打压。

国产CPU多路出击固然显现了中国信创产业的创新本领,但也在很大水平上分散了资源和市场,为硬件适配、操纵体系和应用软件的开发带来了困难,而国产GPU(重要是GPGPU)的发展一定也碰面对相似局面。

起首是市场空间的限定。一方面,美国禁令影响的高端GPU市场占比不高,但是很关键;另一方面国产GPU进入主流消耗市场门槛过高,只能走政府扶持的门路。受国产政策和市场驱动,国内催生了浩繁的GPGPU初创企业,实际缘故原由这些企业的起步大概率也是通过信创市场,这就要找到一个或多少个地方政府的支持,进而步CPU后尘形成碎片化、分散的市场格局。

其次是人才资源的限定。众所周知,GPU从产物到生态的构建必要具备多学科范畴的专业团队协作,包罗但不限于图形学、算法、硬件架构、软件架构、体系架构、硬件数字开发、验证、模仿开发、后端、版图、体系、软件、驱动、测试、呆板布局、生产等等浩繁范畴的专家。一拥而上的GPU创业团队一定会分食掉原来就非常有限的人才资源。

末了是软件生态的限定。由于市场及客户的碎片化,以及应用端体系的封闭性,国内GPU公司很大一部门工作重心必要用于各种AI平台的适配。假如要能顺应全部软件,必要本身开发全部的工具链,这意味着巨大的人力、资金、时间投入,在市场空间有限且客户是否乐意为此买单的环境下,企业生存肯定会陷入窘境。英伟达在GPU范畴实现把持的缘故原由之一是其CUDA生态富足丰富,国产GPU想要重头创建一个新的生态,对卑鄙开发者将会黑白常高风险的选择;但假如完全基于CUDA生态举行开发,那国产GPU的硬件更新将完全绑定英伟达的开发历程,如许就失去了主动性,且永世慢人一步。

可以预见,在上述种种限定下,国产GPU将会在有限市场内陷入各自赛马圈地内卷的局面,而且只有打败了国内这些对手,胜出的企业才有时机去跟英伟达或AMD竞争。

在CPU范畴,RISC-V正依附着兼备开源开放和自主可控等长处,成为越来越多国产CPU的最佳选择。那么在GPU范畴,开源架构是否也能资助中国厂商突破英伟达和AMD长期以来把持的闭源防线?

RISC-V开源架构打造GPU的可行性

近几年在地缘政治仰面趋势下,芯片架构开源的长处显而易见:民主、透明、自由、顺应性强,开源让商业IP和工具有一个强盛而充满活力的市场,RISC-V的敏捷繁荣证明了这一点。市场研究机构Semico Research Group猜测,到2025年基于RISC-V架构的处理处罚器核心将高出624亿颗,2018-2025年的年复合增长率高达146%。别的,RISC-V基金会的数据表现,该社区会员数目在70个国家/地区已高出3180名,举世有数万名工程师致力于RISC-V开发项目。

看起来,打造一个有别于英伟达和AMD的开源GPU生态的条件已经满足,即一个自由可得到的指令集架构,以及可以大概吸引广泛的开发者。现在的标题是,开源GPU,RISC-V已经预备好了吗?

客岁一月,英特尔表态投入10亿美金打造RISC-V创新基金,表态支持RISC-V发展;8月阿里平头哥正式发布高性能无剑600 RISC-V芯片筹划平台,主打高性能、高内存带宽、异构盘算和人工智能加持,推动RISC-V芯片主频从1Ghz走向2Ghz;9月,SiFive成为NASA即将推出的高性能航天盘算 (HPSC) 处理处罚器提供核心CPU的供应商,用RISC-V架构的芯片搭建要求极高的航空范畴的高性能处理处罚器;近来Ventana公布推出了Veyron系列高性能RISC-V处理处罚器,采取高性能Chiplet和IP的情势提供……

种种迹象表明RISC-V已经从低算力的智能物联技能向桌面级、边沿盘算渗出,并继续迈向HPC,大规模盘算场景进军。假如说走向高性能是基于RISC-V打造开源GPU的假想开始,那2021年9月RISC-V向量扩展(RVV)1.0的正式推出则使得这一假想有了底层技能的支持。

从左至右:上海清华国际创新中心集成电路研究平台主任助理程宝忠、清华大学集成电路学院副教授、上海清华国际创新中心集成电路研究平台副主任何虎、清华大学集成电路学院,承影团队杨轲翔

清华大学集成电路学院副教授、上海清华国际创新中心集成电路研究平台副主任何虎团队的新项目就基于开源指令集+开源软件工具链+开源硬件架构创新,将GPGPU并行盘算与传统CPU的串行盘算上风举行整合,为国内GPGPU的发展提供了一种新的思绪。在客岁8月,何虎团队发布了首款基于RISC-V向量扩展(RVV)的GPGPU“Ventus(承影)”,也是国内首个开源GPGPU,通过RVV+OpenCL编程框架+Tensor Core张量盘算单元,为国内学术界和工业界提供技能门路评估宁静台搭建底子的参考,在后续协同企业开发国产全自主GPU商用产物路上迈出关键一步。

承影基于GPGPU编程模子举行筹划,采取RISC-V向量扩展,基于LLVM开源工具链完成GPGPU编译器的开发,支持OpenCL开源并行编程框架。同时,RVV GPGPU参考RISC-V CPU开发思绪,在满足SIMT底子功能的同时,罗致了RISC-V向量扩展在功能界说和指令筹划上的上风,并将二者有机联合,使得承影同时具备向量处理处罚器工具链兼容性和GPGPU编程机动性,未来也能更好联合RISC-V编译器、打造同一指令集SoC体系。

据分析,从软件编程模子来看,承影通过驱动步调和CTA Scheduler来举行GPGPU的任务分发,然后各个流多处理处罚器(Streaming Multiprocessor,SM)核以类似于RISC-V处理处罚器的模式举行盘算,如许带来两个非常大的上风,一是可以创建在RISC-V生态底子上,不必要完全重新创建GPU生态,规避了与CUDA的专利标题;二是每个SM核的独立性更好,可以实行比通例GPU CUDA核更复杂的盘算。

在客岁8月发布之时,承影已经在Xilinx VCU128 FPGA上完成了验证,团队开发了AXI驱动步调,并用MicroBlaze作为Host进使用命发射,用PL搭建“承影”GPGPU举行盘算,通过DDR共享内存。按照4 warp 8 thread的设置可摆设160个核心,核心频率为100MHz,理论峰值算力为32Gflops,可同时驻留1280个线程。

团队成员杨轲翔坦言,第一版的承影还是一个很大略的版本,很多功能都没有,但是已经在国内GPU圈子产生较大的影响力,让各人知道清华大学、上海清华国际创新中心在做这个事故。团队将在2023年8月推出承影GPGPU2.0版本。届时承影GPGPU将实现一个完备的GPGPU筹划,并包罗完备的工具链。

开源GPU还需办理的困难

在清华大学开源GPGPU项目承影之前,着实举世范围内已有多个机构发布过类似的项目,比如英属哥伦比亚大学的GPGPU-Sim,威斯康星麦迪逊大学的MIAOW GPGPU,乔治亚理工学院的Vortex GPU等,根本都是高校的研究项目,RISC-V的GPU生态发展尚属初期,真正商业化落地还必要办理不少困难。

第一,是开源GPU筹划的先辈性。要用开源的指令集来开发出一个开源、开放的GPGPU,筹划必须要具备富足的先辈性,也要有实用的应用场景,才华给行业以信心,吸引更多生态互助同伴的到场。而当前已公开的开源GPU项目,仍旧以追赶、对标当前主流乃至几年前的GPU产物的性能为目的。由于开发资源、积累时间的限定,开源GPU与商用GPU另有着不小的性能差异,可以大概进入量产也还为时尚早。

对此,承影在接下来的版本更新中会不停增长定制修改,同时会到场一些专项筹划单元以及配套的软件库。杨轲翔举例说,当前通用架构下的芯片性能对于各类人工智能所需的数据量和算力越来越难以满足,在如许的配景下,诞生了张量盘算单元(Tensor Core)等专为人工智能定制的盘算单元。将这类范畴定制架构与已有的RISC-V GPGPU架构举行联合,就可以提升峰值算力,也能在功耗、运算速率等方面增长上风。他透露,除了张量盘算单元,后续还会思量针对Transformer等新兴网络架构举行适配。更长期的目的则是到场图形渲染功能,比如光线追踪等。

第二,灵敏开发语言Chisel已经在RISC-V处理处罚器筹划中很常见,承影使用了Chisel HDL实现,中科院另一款香山开源处理处罚器也是用Chisel编写的。然而,Chisel仍旧没有被工业界广泛继续,这是由于要学习Chisel编程语言必要肯定的面向对象编程底子和函数式编程履历,上手门槛高,可读性也差一些;其次使用Chisel举行筹划,优化的空间相对较小;末了主流的EDA工具对Chisel支持还不多。

第三,开源GPU筹划工具链、软件生态支持仍旧稀缺。比如当前承影重要软件工具链包罗支持OpenCL编程框架的编译器(kernel),支持OpenCL编程框架的驱动步调 (platform),承影自身的周期精度仿真器。而完备的软件工具链必要比硬件开发更为巨大的人才团队支持,这仅仅依靠一个小型的高校研究团队大概单独几家公司是无法实现的,必要产业多方的互助。

写在末了

GPU着实是一个很复杂的产物,不是简单的硬件开源以后就可以直接为各人使用,必须要有相应的SDK和软件,这些软件和SDK的开发是否是开源硬件同泉源的公司提供?优化做得怎样?是否能完备地支持各种差别的接口,各种Open GL,有没有通过相应的同等性?这些都是很复杂而困难的工作,绝对不但仅是一个开源GPU开出来,各人就可以用了,开发的过程还远远没有完成,挑衅仍旧困难。

不外清华大学承影项目,仍旧是一次GPGPU与RISC-V生态联合的积极探索,对促进国产GPU的发展有告急意义,为当前陷入窘境的国产高性能芯片研发开发了一个新天地。我们渴望它能在国内树立一个开源生态树模,调集、创建起开放的上卑鄙生态,建立积极茂盛的人才造就环境,使部门国内GPU筹划公司核心技能摆脱外洋IP授权,冲破行业把持玩家对先辈技能的封锁。

(校对/杜莎)

收藏 邀请
上一篇:变计谋、保利润,谁来为“硬伤难治”的PICO买单?下一篇:51亿元陕投新兴功率半导体产业化基地落地西咸新区
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP