1 一家人工智能初创企业浅浅扇动两下翅膀,即掀起环球科技界的一阵“海啸”。短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模子。2月8日,据QuestMobile发布数据表现,DeepSeek在1月28日的日生动用户数初次逾越豆包,随后在2月1日突破3000万大关,成为史上最快告竣这一里程碑的应用。 2 代价感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务订价为每百万输入tokens1元(缓存掷中)/4元(缓存未掷中),每百万输出tokens16元,而OpenAI的o1模子上述三项服务的订价分别是55元、110元、438元。 3 AI投资机构MenloVentures对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低本钱比肩OpenAI的o1模子,令硅谷的“烧钱模式”一时间遭到剧烈质疑。然而在已往,大模子服务是尺度的“一分钱一分货”,想要用上更优性能的产物必须支付更高昂的费用,以覆盖整个模子训练过程中更高算力本钱的付出。 4 根据DeepSeek技能报告,DeepSeek-V3模子的训练本钱为557.6万美元,训练使用的是算力受限的英伟达H800GPU集群。相比之下,同样是开源模子的Meta旗下Llama-3.1模子的训练本钱凌驾6000万美元,而OpenAI的GPT-4o模子的训练本钱为1亿美元,且使用的是性能更加优秀的英伟达H100GPU集群。 5 ChatGPT横空出世后700多天里,环球人工智能巨头不谋而合走上了一条“大力大肆出奇迹”的“暴力美学”门路,参数越“炼”越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模子厂商比拼的最大焦点。而另辟蹊径的DeepSeek可巧处于对角线的另一端:并不盲目寻求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”门路,突破了“参数膨胀”的惯性。 6 “DeepSeek出圈,很好地证明白我们的竞争上风:通过有限资源的极致高效使用,实现以少胜多。中国与美国在AI范畴的差距正在缩小。”面壁智能首席科学家刘知远说。算力封锁下的有力破局,得益于DeepSeek技能架构、数据战略、工程实践三方面的关键突破。 7 技能架构:重新界说参数效率。传统大模子Transformer架构比如一条承载车辆的高速公路,当车辆(数据)数量足够多的时间,每辆车必须和前后全部车沟通完成才能继承行驶(盘算),导致堵车(盘算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心,先把货品(数据)按范例分类打包,再分差别门路同时出发开往差别目标地,每辆货车(盘算)只需选择最短路径。因此既能提高速率又能节省能耗。 8 数据战略:质量驱动的本钱控制。传统的数据战略比如去农场恣意采捡,常有代价不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技能,有针对性地筛选掉质量不高的烂菜叶:一方面主动辨认高代价数据片断(如代码逻辑推理链),相比随机采样训练效率提升3.2倍,另一方面通过对抗训练生成合成数据,将高质量代码数据获取本钱从每100个tokens的0.8元低落至0.12元。 9 工程实践:架起“超等工厂”流水线。大模子传统的训练方式比如手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相称于一方面通过流水线并行把造车流程拆分为10个步调,同时组装10辆车(数据分块处理处罚),另一方面通过张量并行,把发动机拆成零件,分给10个工厂同时生产(模子分片盘算)。 泉源:新华社客户端漫画:杨仕成 |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP
关于我们|广告合作|联系我们|隐私条款|免责声明| 时代威客网
( 闽ICP备20007337号 ) |网站地图
Copyright 2019-2024 www.eravik.com 版权所有 All rights reserved.


