文|王沁 王奕昕 编辑|李然 又是藤校生辍学创业,开辟技能新门路,挑衅主流的故事。 两个从哈佛退学的00后本科生,开辟了一款新的AI芯片,筹集了高达1.2亿美元。 两位辍学生建立的公司名为Etched AI,开辟的这款芯片名为「Sohu」(但不是“搜狐”),是专为Transoformer架构大模型研发的ASIC芯片。相比于占据AI芯片把持地位的、原本作为图形处置处罚器的英伟达GPU,Sohu芯片只运行Transformer架构的模型,但运行速率比GPU快一个数量级。 当地时间6月25日,Etched公布完成 1.2 亿美元的 A 轮融资,由早期投资机构Primary Venture Partners 和 Positive Sum Ventures 共同领投。重量级天使投资人包罗风险投资家 Peter Thiel、GitHub 首席实行官 Thomas Dohmke、自动驾驶公司 Cruise 的联合首创人 Kyle Vogt, 以及Quora的联合首创人Charlie Cheever。现在公司没有透露新一轮融资后的估值。已经有早期客户,向Etched AI预订了数万万美元的硬件订单。 Etched AI 位于加利福尼亚,是一家“两人公司”,两位首创人都是2020年进入哈佛,在校时疯狂兼职打工,厥后休学创业,此中一位是21岁华裔小哥Chris Zhu,一位是Gavin Uberti。 英伟达的AI芯片帝国,不乏挑衅者:芯片初创公司Cerebras Systems的大体积单个芯片,以及 Tenstorrent公司的RISC-V技能芯片。现在英伟达又多了一个更年轻、更雄心壮志的对手——Etched AI。 怎样比H100更快20倍?众所周知,AI芯片的巨头英伟达采取的GPU原本是图形处置处罚器,善于并行处置处罚多个简朴的盘算,后用于训练AI模型,因为训练AI须要同时对全部数据样本实行类似的操纵。 但训练AI大模型须要更专用的芯片。Etched首席实行官Uberti 在公开采访中说,“人工智能的发展已经到了如许一个阶段,性能优于通用 GPU 的专用芯片是不可克制的——全天下的技能决定者都知道这一点。” 「Sohu」芯片是一种 ASIC(专用集成电路),一种为特定应用量身定制的芯片。Sohu只运行Transformer架构的模型。Transformer 是由谷歌研究职员团队于 2017 年提出的,已成为占主导地位的天生式 AI 模型算法。 Etched 称Sohu芯片采用台积电 4 纳米制程制造,可以提供比 GPU 更好的推理性能,同时斲丧更少的能源。 Etched宣称,与H100相比,一台集成了8块Sohu芯片的服务器,能对抗160块H100芯片,这意味着Sohu芯片的速率比H100快20倍。与英伟达下一代 Blackwell (B200) GPU相比,Sohu芯片快 10 倍以上,而且更自制。 针对Llama 70B 开源大模型,一台Sohu芯片每秒运行凌驾 50万个token,比 H100 芯片(2.3万token/秒)多 20 倍,比 B200 芯片(约 4.5万token/秒)多 10 倍。 针对 Llama 3 70B 的 FP8 精度基准测试体现:无希罕性、8 倍模型并行、2048 输入或 128 输出长度。 Sohu的推理速率是怎样做到这么快的? Sohu芯片采用了一种名为"连续批处置处罚"(Continuous batching of prompts and completions)的创新技能。这种方法奇妙地将多个输入和输出序列组合在一起处置处罚,充分利用了芯片的盘算资源。 想象一下,就像是在一个大厨房里,多个厨师同时利用类似的食材(模型权重)烹调差别的菜肴(处置处罚差别的输入序列)。 这种技能的上风在处置处罚长输入短输出的场景中尤为明显,这恰恰符合大多数AI应用的利用模式。通过这种方式,Sohu芯片能够在处置处罚Llama-3-70B等大型模型时到达惊人的服从,远超传统GPU的体现。 简朴来说,Sohu芯片就像是一个超级高效的并行处置处罚器,能够同时处置处罚大量的AI任务,而不会被内存读取速率拖后腿。这一突破性的技能有望大大提拔AI应用的相应速率和处置处罚本事,为用户带来更流畅、更智能的体验。 别的,Sohu还能做到简化推理所用的硬件和软件。由于Sohu不运行非Transformer模型,Etched 团队可以去掉与Transformer无关的硬件,并削减传统上用于摆设和运行非Transformer的软件开销。 相比之下,英伟达的GPU中,并不是全部晶体管都用于大模型的张量盘算。例如,H100 有 800 亿个晶体管,但只有27 亿个专用于张量核心的晶体管,这意味着 H100 GPU 上只有 3.3% 的晶体管用于大模型的矩阵乘法。 Sohu芯片通过仅运行变压器,在芯片上安装更多的 FLOPS,而无需诉诸较低的精度或希罕性。 GPU 并没有在单芯性能上变得更好,只是变得更大了。在已往四年中,盘算密度 (TFLOPS/mm^2) 仅提高了约 15%。 新一代GPU都是靠堆叠多张卡来提拔算力——将两个芯片算作一张卡,以“翻倍”其性能。NVIDIA B200、AMD MI300X、Intel Gaudi 3、AWS Trainium2等都是云云。 随着摩尔定律(CPU的集成电路上可容纳的晶体管数量,约每隔两年便会增长一倍)放缓,提高芯片性能的唯一方法是采取专业化的芯片,而非通用芯片。 GPU触达天花板:英伟达、AMD、英特尔、亚马逊等公司都通过将两块芯片合为一体来成倍增强性能。2022年至2025年间,AI芯片技能并没有“变好”,而只是“变大”。这期间全部的芯片性能提拔都是通过“变大”实现的,除了Etched。 Etched宣称,现在AI 模型的训练本钱凌驾 10 亿美元,将用于 100 亿美元以上的推理。对于这么大的需求,用 5000 万至 1 亿美元的定制芯片来调换1%的性能改进,是公道的。 如果 AI 模型一夜之间速率提高 20 倍、本钱降低 20 倍,会发生什么? 当下,Gemini 要花凌驾 60 秒的时间来回答有关视频的标题,用AI运行代码,须要数小时才华完成任务,本钱比雇佣人类码农更高。视频天生模型,一秒钟才华天生一帧画面。当 ChatGPT 注册用户到达 1000 万(这还只是举世用户的 0.15%)时,以致 OpenAI 也出现GPU算力荒。 即使以多卡互联的方式堆叠显卡,以每两年 2.5 倍的速率不停制造更大的 GPU,也须要十年的时间才华实现即时的视频天生。 而当Sohu芯片能让大模型的推理速率提高20倍,视频模型天生画面能更即时、敏捷, 消息一出,网友们大多表示接待,认为这家公司的出现将加速AI创新: 两位哈佛本科生休学创业的生死赌注Gavin Uberti和Chris Zhu休学创业,是在2022年10月,当时离Chat-GPT问世另有一个月,Transformer还远没有成为主流地位的架构——图像和视频天生模型利用的是U-Net,自动驾驶汽车模型利用CNN。但在当时,两位创业者已经把全部赌注下在Transformer专用芯片上。 “我们在人工智能范畴下了最大的赌注,”Etched联合首创人Gavin Uberti在一次公开采访中表示, “如果Transformer消散了,我们就会死。但如果Transformer能对峙下去,我们就是有史以来最大的公司。” “厥后当 ChatGPT 推出时,英伟达股票卖爆了,特殊是当其他发布的全部模型也都是Transformer架构时,我们发现自己在精确的时间处于精确的位置。”Gavin说。 “我们对自己正在做的事变绪到云云高兴,为什么我们辍学,我们说服了这么多人脱离这些芯片项目——这是我们要做的最告急的事变。”厥后参加Etched的联合首创人Robert Wachen说。 让我们看看几位云云年轻的创业者的配景是怎样的: Gavin UbertiGavin Uberti 是Etched的联合首创人兼首席实行官,创业前就读于哈佛大学,攻读数学学士和盘算机科学硕士学位。 Gavin原本计划脱离哈佛休学一年,但终极在 OctoML 找到了一份从事 ApacheTVM (深度学习编译器框架)开源编译器和matmul内核的工作。 在为 Arm Cortex M4 和 Cortex M7 内核开辟微内核时,Gavin 留意到 Arm 的指令集没有 8 位 MAC SIMD 指令,只有 16 位(M4 和 M7 支持很多其他 8 位 SIMD 操纵,但 Helium 引入了 8 位 MAC SIMD 指令)。这意味着 8 位 MAC SIMD 操纵实际上仅以一半的速率运行。这可以说是Gavin开办Etched的一个关键因素。 “这个标题永远无法办理,每次上班,我都必须处置处罚这个疏忽,这让我和 Chris 一起思考,我们必须能够做得更好,”Gavin说。 与此同时,Gavin和Kris还看到语言模型范畴正在发生变化,也就是人们对基于Transformer 架构的 LLM 的爱好激增。 他和Zhu决定开办一家芯片公司,为 LLM 计划更高效的推理架构。固然现在市场上还没有专门针对 LLM 的加速器,但 Nvidia 已经公布了针对转换器的软件功能,其他加速器公司也公布支持语言和视觉转换器。Etched.ai 计划通过进一步专业化来与现有企业竞争。 “你无法通过泛化得到我们所得到的那种改进,”Gavin说。“你必须在单一架构上下大赌注,不仅仅是人工智能,还要在更详细的东西上下赌注……我们认为 Nvidia 终极会做到这一点。我们认为这个时机太大了,不容忽视。” 在Etched,他正在为Transformer架构构建 ASIC(Application-Specific Integrated Circuit,专用集成电路,为特定用途而计划的定制化芯片,能在特定任务上实现最佳性能和服从),与通用 AI ASIC 相比,其吞吐量高出一个数量级。 Chris ZhuChris Zhu,Etched.ai 的联合首创人,现在正在开辟下一代 LLM 加速器体系。 在创业前,他在校期间就不独治加科研,不停兼职实习。 他于2021年9月至2022年4月,在哈佛大学担当各类盘算机科学课程的讲授研究员,同时期还曾在亚马逊和 AvantStay 担当软件工程师实习,分别专注于后端物联网底子办法和 AWS 举世收入运营。 Chris的早期履历还包罗:在2021年2月至6月于哈佛本科资源合资公司担当实习分析师;2018年1月至2020年5月在麻省理工学院担当研究员;2019年6月至8月担当波士顿大学 PROMYS 的低级辅导员。 Robert WachenRobert Wachen是Etched的联合首创人和COO,他有着非常丰富的创业履历。 他的学术和创业履历包罗:哈佛大学咨询团体、哈佛肯尼迪学院举动洞察小组代表、Prod联合首创人(2022年7月至今)、Mentor Labs联合首创人兼CEO(2022年1月至今)Generate Sales Online 首创人(2016年12月至今)、Birthday Cakes 4 Free Maryland 联合首创人兼总裁(2015年9月至今)、蒙哥马利县地区 SGA 财务主管以及蒙哥马利县公立学校“Early Edge”职业准备计划的学生代表。 英伟达现在是AI芯片的巨头。据TechCrunch估计,英伟达占据了人工智能芯片约 70% 至 95% 的市场份额。Etched AI的Transformer专用芯片是英伟达的一个年轻竞争者。 挑衅英伟达的年轻竞争对手另有很多。一个对手是Cerebras Systems公司,正在开辟由整块晶圆做成的、单个体积最大的 AI 芯片,已累计融资7.2亿美元,背后有OpenAI的首席实行官Sam Altman投资。6月20日The Information称Cerebras已经秘密申请上市。 另一个英伟达挑衅者是Tenstorrent,该公司正在利用一种名为 RISC-V 的流行技能来开辟AI 芯片。 英伟达鼎立山头,新势力群雄环伺,两位00后哈佛辍学生建立的Etched AI大概成为下一个英伟达挑衅者。 |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP