科技信息

本钱是GPT的1/20，惊动硅谷的中国大模子DeepSeek是怎么做到的？

“善攻者，敌不知其所守；善守者，敌不知其所攻。这基本就是美国和中国了。”文 / 巴九灵（某信公众号：吴晓波频道）站在汇金国际大厦，透过巨大的落地窗，京杭大运河一清二楚。楼下的环城北路，是杭州最繁忙的主干

“善攻者，敌不知其所守；善守者，敌不知其所攻。这基本就是美国和中国了。”

文 / 巴九灵（微信公众号：吴晓波频道）

站在汇金国际大厦，透过巨大的落地窗，京杭大运河一清二楚。楼下的环城北路，是杭州最繁忙的主干道之一。而在这座被嘈杂声困绕的冷色调构筑里，诞生一家被美国硅谷称为“东方神秘气力”的公司。

现在恐怕都不能用“火热”“震惊”来形容它了。年末的时间，它迭代推出大语言模子DeepSeek-V3，报道称“训练斲丧的算力仅为最强盛的开源模子Llama 3 405B的1/11”，惊动了环球AI圈。

这家“神秘”的公司便是“深度求索”，大模子产物叫DeepSeek，现在更新到第三代，手机注册账号，个人就能免费使用。首创人叫梁文锋，80后，浙大高才生，也是深度求索母公司——私募巨头幻方量化的首创人。

梁文锋很低调，平常“看论文，写代码，加入小组讨论”，以致连DeepSeek呆板人都反复改正自己的老板叫“朱明杰”。他提前囤了一万枚英伟达的GPU，在大语言模子大门关闭前一只脚跨了已往。深度求索成了除大厂外唯逐一家能做通用大模子的中国初创公司。

公司成立一年半，很年轻，苏息日不加班。保洁阿姨说是一群不起眼的小伙子和小姑娘。而这帮眼光澄澈的年轻人中，一个名叫罗福莉的95后脱颖而出，她仅仅加入了上一代大模子的关键研发，就被雷军用万万年薪招至麾下，媒体叫她“天才少女”。

用梁文锋受访的话讲，“看本领，而不是看履历”，焦点技能岗位“基本以应届和毕业一两年的人为主”。

已往的一年里，他们一边搞研究，一边拿着希奇热乎的论文评奖。当有了一个不错的想法，公司会自上而下调动资源，以是即便一个练习生，都能在大模子的研发上贡献颇多。在硅谷圈，他们被形貌为“一批高深莫测的奇才”。

无论是团队特性还是运作结构，难免会让人想起那股曾风靡AI界的气力——OpenAI。这便是媒体和早期采访中DeepSeek的样子。

DeepSeek的规模不大，算上梁文锋不到150人，而OpenAI有2000多人。大概，从它进入公众视野的那一刻起，就注定会被拿来和OpenAI比较。

相较OpenAI的GPT系列产物，DeepSeek在训练方法和模子架构上有多方面的创新。

虽然两者都是基于Transformer架构，但它采用了全新的MLA（多头潜在注意力机制）架构，能低沉5%—13%的推理显存，而自研的DeepSeekMoE架构，大幅淘汰了计算量。

着名科技博主Rick 张打了个比喻：

OpenAI的训练方法是‘洪流漫灌式’，拿来的数据放到‘黑盒’里训练，一次不行再试一次，直到活动止，因此很烧钱；DeepSeek是先一步使用算法，对数据举行总结和分类，然后运送给大模子，类似把目次和框架先给到大模子，再将所有内容，按照这个分类和知识点，训练大模子理解并把握。这意味着大模子的训练相比‘黑盒’变得更加规律和透明化。

通过此法，DeepSeek形成了最大竞争上风——自制，而且自制到了“不可思议”。

根据媒体报道，DeepSeek-V3仅用了2048块GPU，训练了不到2个月，共泯灭550多万美元。而GPT-4o模子训练本钱约为1亿美元，这意味着DeepSeek的本钱只有GPT-4o的1/20。

OpenAI首创成员之一

对DeepSeek-V3超低训练本钱感到震惊

鲜为人知的是，上半年中国大模子代价战的“始作俑者”，正是DeepSeek。5月，DeepSeek-V2的推理本钱被降到每百万token仅1块钱，是GPT-4 Turbo的1/70，智谱AI、豆包、通义千问等大模子先后跟进。

DeepSeek也因此解锁新外号——AI界拼多多。

然而，DeepSeek并非和代价战中的一些玩家那样不绝“亏钱赚吆喝”。梁文锋曾说：“我们的原则是不贴钱，也不赚取暴利。这个代价也是在本钱之上轻微有点利润。”

由于DeepSeek太过惊艳，难免会被猜疑“站在了巨人的肩膀上”。

科技圈着名研究员David 刘（化名），曾体验过DeepSeek，他发现了一个早期的毛病：当你问DeepSeek是谁的时间，呆板人会回复“我是ChatGPT”。

图源：网络

“国内做大模子有个套路，喜好拿GPT训练，速率又快又潜伏。”刘说，“相互训练只是环球各大模子训练的常规操纵。当你问谷歌大模子产物‘你是谁’时，它同样会说‘我是文心一言’。”

不过，DeepSeek“站在了巨人的肩膀上”更多是指OpenAI为它提供了创新的“踏脚石”。

一位DeepSeek数据科学家表现，DeepSeek-V3采用的一项关键项目创新创建在FP8上训练模子，而非GPT使用的FP16。

简而言之，FP8训练精度更低。如果没有GPT-4等前沿模子“铺路”，用较低的精度训练是不可能的。

打个比方。你想从A地到陌生的B地，你不知道怎样到达，以致猜疑到底能否到达时，就会变得鉴戒翼翼，步履维艰。但如果A点到B点确定能到，而且只要按照大抵方向进步，你就会放心大胆地向前跑。

清华大学人工智能学院教授沈阳以为，从深度思考来看，DeepSeek是国内大模子第一，也是环球开源大模子第一。

DeepSeek

在不少业内人看来，深度求索即将加入“大模子六小龙”的阵营。

“大模子六小龙”指的是，颠末一年多来的“百模大战”，有六家估值超10亿美元的独角兽AI创业公司站稳了脚跟，分别是智谱、MiniMax、月之暗面、百川智能、零一万物和阶跃星辰，它们带着各自的产物紧跟国外领先大模子。

这六家公司都面临同样挑衅。在算力上缺乏高端芯片，只能通过AI人才优化算法。贸易化上面临国内大模子巨头在开发和流量上的上风，它们积极探求差别化应用方向，以求在暴虐的竞争中活下来。

但深度求索是个例外。

在七家中国大模子明星创业公司中，它是“至今专注于研究和技能的公司，也是唯逐一家尚未全面思量贸易化，选择开源门路以致都没融过资的公司”。

大概梁文锋真的试图打破“国外从0到1，中国从1到N”的定式头脑——欧尤物搞根天性研究，中国人负责应用落地。

而从现在西欧科技圈的各种评论来看，圣诞节后的“大礼”，除了中国第六代战机，可能没有什么比推出一款对标GPT、训练本钱只要500万美元且开源的大模子更震撼了。以至于他们反思：岂非电动车、无人机的故事，也会在AI领域重演吗？

当然，关于DeepSeek是否真的如媒体报道的那样服从极高、本钱极低，另有待验证。为此，我们请来了一些科技领域的专家，通过切身材验，来客观分析和评价一下DeepSeek的技能和前景，以及对中美AI竞争的影响。

大头有话说

张孝荣

深度科技研究院院长

关于DeepSeek的使用体验，我有四个感受。

◎ 第一，在问题回复、笔墨处置惩罚方面，跟其他国产大模子相比，相差并不显着，也时常轻易出现AI幻觉。所谓的AI幻觉，指的就是AI工具给到的结论或资讯，存在肯定的虚假身分或误导性。

◎ 第二，相较于其他大模子，DeepSeek模子优点体现在多模态处置惩罚、高分辨率图片输入、开源与商用授权政策上。换言之，能理解多种范例的数据，从图片到音视频等等；可以在大尺寸分辨率图片中，辨认图中微小的物体；并提供开源商用授权，为开发者和研究者提供技能支持。

◎ 第三，不敷之处紧张体现在处置惩罚极度复杂的情况，或者非常规的视觉-语言（VLM）场景时，还须要进一步优化。即让大模子在同时吸取处置惩罚一些非常规的图像和笔墨时，表现有待进步。

◎ 第四，由于这个产物刚起步推广，至今也没有开发移动终端，社区和生态体系也有待美满。

进一步分析训练方法和原理，与包罗OpenAI的其他大模子相比，DeepSeek在高效性和本钱效益方面具有显着上风。

DeepSeek采用了混淆专家架构（MoE）和多头潜在注意力机制（MLA），通过显着压缩键值（kv）缓存为潜在向量，淘汰了推理过程中对键值缓存的需求，进步了推理服从。

而以OpenAI为例，则更注意内部头脑链（internal chain of thought）的构建，在回复问题前会主动思考，将复杂问题拆解为多个子问题。

别的，两者在训练数据的选择和优化上可能也存在差别。

DeepSeek在架构筹划和优化技能上举行了创新，包罗混淆专家架构、多头潜在注意力机制、优化预训练语料库等。这些技能使得DeepSeek能够在保持性能的同时，大幅度低沉计算和存储需求。

通俗一点来说，包罗以下做法：

1.数据压缩：通过MLA架构和FP8混淆精度，淘汰数据量，低沉内存占用。

2.选择性处置惩罚：颖跞处置惩罚紧张数据，简化次要数据，进步训练服从。

3.知识蒸馏：使用西席模子天生高质量数据，加快门生模子训练。

终极结果就是，DeepSeek-V3作为一款参数量高达671B的大型语言模子，在预训练阶段只用了2048块GPU，这一数字相比其他大型模子动辄几万块GPU来说仅是个零头，确实很少。

由于没有直接验证，关于坊间所谓的“DeepSeek以1/11算力训练出超过Llama 3 405B的开源模子”的真实性，我无法给出确切结论，如果这一说法属实，那么它确实涉及到底层技能的革命性变化。

不能否认的是，DeepSeek-V3的训练方法确实给大模子训练低沉研发本钱提供了新思绪。

作为AI领域的一股清流，DeepSeek专注于研究和技能的态度值得肯定，它的实践打破了“算法越强算力需求越大”的熟悉误区，证明了大模子对先辈算力的依赖并非如想象中那么剧烈，可以有低本钱的选择。同时，DeepSeek的开源战略也为整个AI行业带来了积极影响，加快了技能的普及和应用。

何帅

资深科技自媒体人

从体验来看，DeepSeek有自己的优点，好比在解决数学运算方面的逻辑性更强一些，但是在更广泛的知识层面的问答、常识上的问答就和百度等主流模子以及OpenAI的大模子GPT-4尚存差距。

关于媒体或专家所说的DeepSeek训练服从更高、本钱更低这件事，以致“用1/11的逊?з率超过谷歌的Llama”等，现在还停顿在报道层面，只是这些报道，再加上员工曾被小米高薪挖走等热门的叠加，让它忽然火了起来。据我所知，它在量化交易上的表现较为优异，但其他贸易化方面暂没有特殊突出的表现，有待进一步观察。

相对可以肯定的是，DeepSeek是“站在巨人的肩膀上”，当前国表里的大模子发展都比较迅速，它作为“新人”自然可以集各家所长，举行训练数据的选择、模子架构的筹划以及优化训练战略，这可能是它表现优异的缘故原由之一。

至于拿它在训练服从上的突破，来延伸到对英伟达打击，我以为可能性不大，至少现在的影响很小。

中美之间，技能和人才的差距实在并不大，紧张我们还是硬件部分受限，技能研究、软件生态方面，基本上和美国平分秋色。

张津京

BT财经首创人

客岁六月，我国大模子和人工智能顶级专家之一、清华大学的张钹院士曾经排序，指出国内要想在大模子领域得到突破。第一个要注意的是知识，第二个注意的就是算法，第三个是数据，末了才是算力。

*小巴注：据业内人士指出，知识可能是knowhow的意思，以供参考。

DeepSeek的做法，实际上就是跑通了张院士的这套逻辑，也直接证明，国内人工智能学界对这件变乱的认知和判定是正确的。

与此同时，它有可能会戳破美国制造的“人工智能硬件怒潮泡沫”。

所谓的人工智能硬件怒潮，简朴而言，即算力举足轻重，由此英伟达的卡要做得越来越好，卖得越来越贵，买的人却越来越多。由于算力跟不上，大模子就难以实现。

但现在的情况却相反：不须要那么多的算力也可以搞出很好用的模子。大概这也表明了为什么当前英伟达在到处探求下一个阶段人工智能的时机，好比具身智能和呆板人。

2025年的大模子发展，大概率会往这样的方向发展。

第一，部分大模子不再沉醉于大规模的训练（OpenAI在GPT-5上的推迟就是一个信号），而是开始像DeepSeek精耕细作，做好内部的训练。

第二，所有大模子都会去夺取应用领域，在细分场景里各自进化——就我们团队的使用体验来说，数据分析解读上，星火和通义千问就很不错；文章写作，文心一言结果最好；外文读写，智谱AI；豆包，多模态处置惩罚本领；Kimi大模子搜刮上表现神奇等等——差别化竞争是未来方向。

业内资深人士

从业内视角看，DeepSeek横空出世，肯定碰面临一些质疑。缘故原由在于，这么好的产物做出来了，但团队的成员，在汗青上都尚未发表过比较有代价的论文，也没有成名的实战项目，各人心里自然会犯嘀咕。

但这件变乱比较振奋民气的一面在于，它说明，中国在工程本领和工程人才的储备上，是比较浮夸的，也是我们国家的焦点上风。

就是我国科学家在面对这类问题时，一向的看法是，用体系和工程的视角看问题，绝对可以逾越对手。

这是钱学森老师当年提出的理论。

他将极其复杂的研制对象称为“体系”，即由相互作用和相互依赖的若干构成部分联合成的具有特定功能的有机团体，而且这个“体系”自己又是它所附属的一个更大体系的构成部分。

比方，研制一种战略核导弹，就是研制由弹体、弹头、发动机、制导、遥测、外弹道测量和发射平分体系构成的一个复杂体系；它可能又是由核动力潜艇、战略轰炸机、战略核导弹构成的战略防御武器体系的构成部分。

研制这样一种复杂工程体系所面临的基本问题是：怎样把比较笼统的初始研制要求渐渐地变为成千上万个研制任务加入者的详细工作，以及怎样把这些工作终极综合成一个技能上公道、经济上合算、研制周期短、能调和运转的实际体系，并使这个体系成为它所附属的更大体系的有效构成部分。

从这个意义上来说，美国更崇尚自由探索，工程师以算法和软件为主，最大的短板是工程师种类少、数量少、有吃苦精神的少。而中国恰恰相反，硬件工程师和可以“下工地”的工程师多。

好比，马斯克是典型的体系论，以是在美国显得特立独行，但在中国就有情绪共鸣，从造电动汽车、火箭到人工智能，都有很强的体系论头脑陈迹。

善攻者，敌不知其所守；善守者，敌不知其所攻。这基本就是美国和中国了。

本篇作者 | 徐涛 | 和风月半 | 责任编辑 | 何梦飞

主编 | 何梦飞 | 图源 | VCG

收藏邀请

上一篇：低空经济“高潮”催生新岗位，无人机利用员人才缺口达100万下一篇：台积电2nm太贵，传联发科下代旗舰继承用3nm

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

本钱是GPT的1/20，惊动硅谷的中国大模子DeepSeek是怎么做到的？

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端