科技信息

知识窗｜DeepSeek有多强？

1一家人工智能初创企业浅浅扇动两下翅膀，即掀起环球科技界的一阵“海啸”。短短30天，中国初创企业深度求索（DeepSeek）先后发布两款性能比肩GPT-4o的大模子。2月8日，据QuestMobile发布数据表现，DeepSeek在1月28

一家人工智能初创企业浅浅扇动两下翅膀，即掀起环球科技界的一阵“海啸”。短短30天，中国初创企业深度求索（DeepSeek）先后发布两款性能比肩GPT-4o的大模子。2月8日，据QuestMobile发布数据表现，DeepSeek在1月28日的日生动用户数初次逾越豆包，随后在2月1日突破3000万大关，成为史上最快告竣这一里程碑的应用。

代价感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务订价为每百万输入tokens1元（缓存掷中）/4元（缓存未掷中），每百万输出tokens16元，而OpenAI的o1模子上述三项服务的订价分别是55元、110元、438元。

AI投资机构MenloVentures对比谷歌Gemini和DeepSeek-R1后表示，DeepSeek-R1更便宜、上下文更长、推理性能更佳。低本钱比肩OpenAI的o1模子，令硅谷的“烧钱模式”一时间遭到剧烈质疑。然而在已往，大模子服务是尺度的“一分钱一分货”，想要用上更优性能的产物必须支付更高昂的费用，以覆盖整个模子训练过程中更高算力本钱的付出。

根据DeepSeek技能报告，DeepSeek-V3模子的训练本钱为557.6万美元，训练使用的是算力受限的英伟达H800GPU集群。相比之下，同样是开源模子的Meta旗下Llama-3.1模子的训练本钱凌驾6000万美元，而OpenAI的GPT-4o模子的训练本钱为1亿美元，且使用的是性能更加优秀的英伟达H100GPU集群。

ChatGPT横空出世后700多天里，环球人工智能巨头不谋而合走上了一条“大力大肆出奇迹”的“暴力美学”门路，参数越“炼”越大，给算力、数据、能耗带来了极大压力。很长一段时间，参数几乎成为大模子厂商比拼的最大焦点。而另辟蹊径的DeepSeek可巧处于对角线的另一端：并不盲目寻求参数之大，而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”门路，突破了“参数膨胀”的惯性。

“DeepSeek出圈，很好地证明白我们的竞争上风：通过有限资源的极致高效使用，实现以少胜多。中国与美国在AI范畴的差距正在缩小。”面壁智能首席科学家刘知远说。算力封锁下的有力破局，得益于DeepSeek技能架构、数据战略、工程实践三方面的关键突破。

技能架构：重新界说参数效率。传统大模子Transformer架构比如一条承载车辆的高速公路，当车辆（数据）数量足够多的时间，每辆车必须和前后全部车沟通完成才能继承行驶（盘算），导致堵车（盘算慢、能耗高）。而DeepSeek创新的架构则把一条串行的高速路，变成了一个辐射状的快递分拣中心，先把货品（数据）按范例分类打包，再分差别门路同时出发开往差别目标地，每辆货车（盘算）只需选择最短路径。因此既能提高速率又能节省能耗。

数据战略：质量驱动的本钱控制。传统的数据战略比如去农场恣意采捡，常有代价不高的烂菜叶（低质量数据）。而DeepSeek创新的数据蒸馏技能，有针对性地筛选掉质量不高的烂菜叶：一方面主动辨认高代价数据片断（如代码逻辑推理链），相比随机采样训练效率提升3.2倍，另一方面通过对抗训练生成合成数据，将高质量代码数据获取本钱从每100个tokens的0.8元低落至0.12元。

工程实践：架起“超等工厂”流水线。大模子传统的训练方式比如手工造车，一次只能装配一台，效率低下。而DeepSeek的3D并行相称于一方面通过流水线并行把造车流程拆分为10个步调，同时组装10辆车（数据分块处理处罚），另一方面通过张量并行，把发动机拆成零件，分给10个工厂同时生产（模子分片盘算）。

泉源：新华社客户端漫画：杨仕成

收藏邀请

上一篇：上海杀出芯片超等独角兽：国内有数突破垄断下一篇：智驾独角兽爆雷，首创人失联！纵目科技700多名员工窘境待解

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

知识窗｜DeepSeek有多强？

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端