快捷导航
科技信息

“3万张卡”、60亿投入后,DeepSeek发了5000亿红包

芯事重重“算力经济学”系列研究,聚焦有关算力、资本干系话题的技能分析、财产穿透,本期聚焦DeepSeek的用户现状、算力储备、资源付出和财产影响。特约作者 中存算董事长 陈巍、苏扬编辑 郑可君DeepSeek在春节期间

芯事重重“算力经济学”系列研究,聚焦有关算力、资本干系话题的技能分析、财产穿透,本期聚焦DeepSeek的用户现状、算力储备、资源付出和财产影响。

特约作者 中存算董事长 陈巍、苏扬

编辑 郑可君

DeepSeek在春节期间的惊艳表现,成为中、美科技竞争的新变量。在技能方面,DeepSeek乐成地探索出了一套在“算力受限”的条件下,提拔算力服从、实现大模型性能大幅跃升的路径;对行业而言,DeepSeek自大地用开源的方式赋能各行各业;而对用户来说,其免费商业模式也不测地推动了“AI技能平权”和“AI普惠”。

DeepSeek在环球AI财产掀起的技能、资源风暴,陪伴而来的是企业和用户们疯狂涌入带来的“泼天”流量。

朱嘉明教授在腾讯科技的《AGI之路系列直播》里曾提到,人工智能未来的发展将会出现分叉:一种是更前沿、尖端、高资本的门路,旨在研究人类未知的领域;一种是走向低资本、大规模的平凡化门路,DeepSeek就是这种大众门路的最佳践行者——他们不但选择了大众门路,也想把更多的人带上这条路。

相比出圈爆火,DeepSeek做了一件更值得被纪录在大模型开源史上的事变——通过连续五天的发布,将其一起走来的方法论、“武功秘笈”公之于人,这此中包罗:

  • 开源针对Hopper架构GPU(例如H100或H800)加快MLA机制盘算的FlashMLA内核

  • 开源加快MoE模型高效通讯和并行处理处罚,实现H800带宽翻倍的DeepEP代码库

  • 开源接纳CUDA编写,实用于矩阵和MoE模型盘算,支持FP8精度的高性能通用矩阵乘法库DeepGEMM

  • 开源V3/R1训练中接纳的盘算与通讯重叠的双向管道/流水线并行算法DualPipe,用以提拔资源利用率

  • 开源利用SSD和RDMA网络带宽计划的并行文件体系3FS文件体系,用以提拔模型训推服从

现在,我们完全可以将DeepSeek称之为 “OpenSeek” 。

DeepSeek“开源五日”这套动作,给外界的观感是将CUDA、Hopper架构吃透了,乃至可以说DeepSeek的工程师,可能比英伟达的多数研究员更懂CUDA和Hopper,但干系研究的本质还是由于“算力受限”与资本高企。

那么标题来了,春节之后的这段时间,DeepSeek在用户和市场份额上的走势怎样,其算力现状是什么,他们毕竟必要什么量级的算力,资源付出在什么量级,会给财产上下游带来什么样的机会?

保举阅读:算力经济学

01、DeepSeek接入潮的负效应:移动端日活减半

根据SensorTower数据,截至2025年2月24日,DeepSeek移动端近30天的均匀日活为950万,2月24日日活接近700万,对比2月初1500万的峰值数据,数据接近砍半。

日活用户大幅度淘汰,与已往一段时间越来越多的终端厂商、云厂以及企业私有化摆设所构成的“接入潮”有关。

此前,由于用户扎堆导致DeepSeek官方服务频仍非常,第三方接入后,大量用户被分流至外部场景当中。

但同时,低频用户的热情徐徐消退,也是DeepSeek月活降落的一个重要缘故原由。以是,在多数对大模型感爱好的人都已下载的情况下,到2月24日,DeepSeek的日下载量下滑至75万左右。相比之下,1月28日,DeepSeek在移动端创下了531万的峰值纪录。

面对云云的流量下滑之势,DeepSeek的未来是否值得担心?答案是否定的。

如果DeepSeek担心用户分流而反噬本身,就不会选择开源焦点模型和硬件服从提拔的干系方法论,也更不会在行业里率先发起贬价潮,你看最近他们又开始贬价了,至少现在看,流量变现不是其最焦点的目标。

固然,还要思量另一重因素,我们所看到的流量下滑只是移动端趋势的反应,一是网页端、API接入的数据没有披露,二是用户利用频次这类更细分的数据还未可知。

02、2000万日活的入场券:预估必要2.78万张GPU

相对其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多头留意力)架构具备显着资本优势。

单Token激活参数仅37B(670B全参数的5.5%),KV Cache对显存的需求,降低至传统架构的1/3~1/15,理论上显存只必要14GB,而H800和A800这些特供版的显存都是80GB。

注:KV Cache:将必要重复盘算的效果举行缓存,必要缓存的值为汗青token对应的KV值,用以制止重复盘算。

别的,DeepSeek R1/V3还接纳了8位(而不是16位的格式)的FP8数据格式,使得所需的显存进一步淘汰。

详细到摆设方面,除了常见的IDC集群摆设外,业界也为DeepSeek提供了开源的经济型摆设方案。例如清华KTransformers团队针对参数存储举行优化,利用单卡4090运行压缩版671B DeepSeek。以是,这段时间很多人在批评大众层面的“AI技能平权”,现实上在行业层面,DeepSeek以及清华KTransformers如许的外部团队的探索,以及连续的开源动作,也可以归结为一种由算力瓶颈驱动的算法平权

前面提到,DeepSeek移动端大概950万,如果网页端+API也按照这个数据盘算(现实上从办公的角度看,web端流量应该更高),守旧一点,我们假设其日活2000万,那么这个量级的流量,必要多少模型,必要多少算力?

我们假设均匀每个用户每天10次问答(春节期间一样平常用2-3次即提示服务繁忙),单次均匀消耗10秒钟,即1/8640天,这意味着2000万日活对应的单日推理哀求总计2亿次,如果排队的话,总耗时为2亿×1/8640,即1个模型跑23148天,显然这种战略不公道,但可以换一种明白方式,摆设23148个模型并行跑1天。

思量到推理集群、时差等因素必要设置肯定量的冗余,在23148个模型的根本上,取1.2作为系数估算(现实系数与服务和客户运动曲线有关),即现实摆设的并行模型数约为2.78万。

回到模型本身,DeepSeek R1模型一共有256个专家,根据用户群的需求动态调解细粒度专家的分布,这意味必要同时运行2.78万个DeepSeek R1模型副本,以对应2000万日活,人均10次问答(均匀每次10秒)的推理需求。按照DeepSeek论文给出的优化摆设方案,每个模型的共享专家与8个细粒度专家常驻一个GPU(更精准的形貌是Prefill 1+9,Decode 1+2,不影响推算效果),最终必要2.78万张GPU。

可能会有人问:单一GPU不能同时处理处罚多个查询哀求吗,现实场景中必须要这么多模型并行吗?

正常情况下,单张GPU同一时候只能运行一个模型,雷同人脑同一时间只能处理处罚一个对话。对单个GPU来说,多个并行查询实在是时分复用排队或众核并行盘算(不能处理处罚太大盘算)的方式,原则上一次对话,由集群分配给一个GPU或一组GPU尽快算完,然后处理处罚下一个客户的一次对话,如许才会有大量GPU同时盘算同时服务差别客户。

注:数据根据前述假设和通例占用率估算,仅供参考,与现实数量不肯定符合

03、养一个大模型团队——60亿元

2021年,DeepSeek母公司幻方量化在美国对华芯片出口管制收效前,前瞻性地采购了10000张英伟达A100 GPU。

受管制之后,英伟达连续为市场推出了H800、H20等多个特供版本,幻方量化也通过正规渠道采购了部门特供版以及其他型号合规的GPU,但详细数量未公开。

一个消息可以佐证这个推测——2024年,幻方旗下AI公司DeepSeek在训练大模型时利用了2048块英伟达H800 GPU集群,运行55天完成模型训练。

思量到高强度摆设和高强度训练接近占满GPU(这里假设上述2048块H800 GPU为白天训练时专用,夜间会调理更多摆设用途GPU给训练),则幻方现实的卡数即2.78万张(A100+H20)+2048张H800,总计29848张,大概在3万张卡左右的规模。

留意,这些只是比较守旧的预估,与国外技能媒体SemiAnalysis对DeepSeek GPU数量的预估在同一数量级。

3万张卡的对于一家创企来说,规模已经相当大了。作为对比,硅谷的这些小巨头们,像xAI Grok 3、OpenAI GPT4.5这些单一模型的训练,就用到了10万张、20万张GPU。

就算基于性价比思量,用于客户服务的GPU估计重要为A100、H20,我们假设两者按比例均匀后批量采购价约为10万元,2.78万张大概为27.8亿人民币,别的2048张卡为H800,单卡按30万人民币盘算,资本约为6亿人民币。

也就是说,幻方量化在GPU资本上的投入,总计应该不低于33.8亿人民币,再思量到CPU、根本办法创建等干系费用,预计硬件资本至少约为38亿人民币。

在这种规模的硬件投入以及API代价比OpenAI、kimi国表里的同范例产物自制的情况下,还能做到545%的利润率,确实非常出彩。不外这个利润率只是单纯的从API服务角度盘算而来,未直接包罗硬件折旧、人力、工程等诸多资本。

现在DeepSeek团队规模约150人(新盼望团体董事长刘永好也在近期采访中确认和梁文锋发言时被告知公司160人左右),重要从中国顶尖高校(如北大、浙大、清华)招聘,对焦点研发职员提供年薪超934万人民币(约130万美元,网传消息),远超国内偕行水平。若以人均年薪500万人民币守旧估算,仅人力资本年付出已达7.5亿人民币

别的,综合资本盘算还要将数据资本、水电及管理费用盘算在内,假设水电和管理费用为1.5亿,则DeepSeek的研发资本显着高于行业早期估算的557.6万美元。

综合盘算,硬件、人力资本差不多47亿人民币左右,如果叠加配套软件情况开辟、数据获取等隐性付出,其总研发投入应超过60亿。

04、给国产算力带来5000亿的机会

这两天,一些MaaS服务商在说接入DeepSeek亏钱的事变,忽略这种极度案例,总体来说,它给国产算力带来的是一个巨大的机会。

在DeepSeek发布后,华为昇腾、沐曦等国产芯片厂商敏捷完成DeepSeek全模型适配,翻译过来就是,一些国产芯片也能较好地用于DeepSeek的推理服务,客户们在英伟达H20之外,多了一个可选项。

根据业内传出来的数据,DeepSeek发作之后,H20 GPU8卡服务器的代价由从100万以内,冲到了100万以上,涨价幅度接近20%,消耗级的4090 GPU则大量断货。

不外,这场接入潮对国产芯片的检验不是它们能不能适配DeepSeek,而是有没有充足的产能来匹配这波“泼天的富贵”,参加“算力游戏”当中。

除了芯片层面的适配之外,服务器提供商这波跟进的也比较快,华为、新华三推出差别设置的DeepSeek大模型一体机服务器,支持从满血版到蒸馏版差别尺寸模型的推理服务。

到现在为止,已经有几十家的服务器提供商推出了干系的一体机产物,根据设置的差别,代价落在10万-100万这个区间。对于那些把握私有化数据金矿的企业来说,这类一体机提供了API、模型服务商和云厂之外,更符合其私有化摆设和安全战略的选择。

关于其市场规模,浙商证券在研报中云云说道——2025年至2027年,DeepSeek一体机在央国企市场将到达1236、2937、5208亿元。留意下,这还只是央国企市场。

以是,DeepSeek的爆火出圈,除了振奋了国产大模型的信心外,也为大模型的遍及、落地举行了一场环球性的科普,同时给更多的上下游厂商带来新的机会,这也是开头我们所说的开源——它的能量、力量的表现。

你看,黄仁勋在2025财年第四序度财报电话聚会会议上就说,“感谢DeepSeek,它开源了一个绝对天下级的推理模型”,对于享受这波红利的国产厂商而言,更是云云。

收藏 邀请
上一篇:苹果iPhone 16e拆解:自研5G基带芯片细节曝光下一篇:DeepSeek创造汗青!登顶全球AI应用第2名,豆包排名第10
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP