OpenAI被Meta“强盗式”挖人挖破了防,昨晚拿出了ChatGPT Agent,证实自己的存在感。奥特曼声称从中“感受到了AGI”,但这会比扎克伯格高举超等智能的大旗更有吸引力吗? 几位OpenAI的顶尖人才,赶在发布会前夜离场了。他们打造的o系列推理模子与智能体,正是ChatGPT Agent的根本。他们看到了什么,让他们投奔大模子仍处于颓势的Meta? Agent登场,AGI落地? 据其体系卡(System Card),ChatGPT Agent是一款新的智能体应用,基于o3模子家属,整合了原来的Deep Research和Operator的优势。如今,它具备了前者的多步搜刮与推理的研究本事,以及后者的与欣赏器交互并实行使命的本事;它还可以利用终端工具(terminal tool)实行代码等,或通过毗连器(connectors)将Google Drive等外部数据源接入进来。 不外,在担当媒体采访时,该应用的产物负责人Yash Kumar和研究负责人Isa Fulford确认,OpenAI专门为其开辟了新模子。它背后的模子尚未被定名。据OpenAI研究人员透露,它紧张通过端到端的强化学习练习而来,也不对应着GPT-5。与旗下搜刮更注意“低延迟”优化不同,它紧张围绕“高性能”优化。 在OpenAI提供的官方基准测试中,它的表现超越了自家的旗舰模子与同类产物。在衡量办理各学科专家级使命本事的“人类最后考试”(Humanity's Last Exam)中,假如本事全开,ChatGPT Agent在第一次实行中(Pass@1)就有41.6%的胜率给出精确答案,远超过同样本事全开的o3(胜率24.9%)与Deep Research(胜率26.6%)。实行8次,胜率提拔到44.4%,与本事全开的Grok 4 Heavy看齐。 在几项模拟复杂真实使命的基准测试中,在差不多一半的情况下,它的表现可以与人类水平相提并论,同时优于同族兄弟的o3和o4-mini。它似乎太强盛了,以至于OpenAI在它的介绍卡中,险些全部篇幅都在讲安全。奥特曼还在X上写了一篇长长的文章,警示用户在用它的时间,授予“最低访问权限”就行。步调与2个月前Anthropic发布Claude Opus 4雷同。 已有不少用户实行了。OpenAI的Pro订阅用户花完了原操持Plus和Team用户也有份的算力,后者得等到下周。企业版和教育版用户预计将于夏日晚些时间得到新功能。在正式发布后,Pro用户每月最多可利用400次,其他付费用户最多利用40次。 最早推出“通用智能体”的Manus,接待OpenAI加入这个游戏,然后在对比测试了十个场景后称自家应用完胜。Genspark也公开“叫板”,直言ChatGPT Agent本事“表现不敷精彩”。但OpenAI可以不停迭代优化自身模子性能,来挤出这个市场的其他竞争者。这是两家华人初创公司。 无论怎样,下半年,随着用户与AI的交互方式从“提示”转向“授权”,OpenAI似乎开始兑现它对AGI的“承诺”。ChatGPT Agent如今可以完成(结果相对收敛的)认知使命、超越(半数以上的)人类以及(在部分范畴)有(替代或增能人力的)经济代价。这也是为什么奥特曼称它有种AGI的感觉。 硅谷巨头的AGI叙事“幻觉” 但是,一直以来,在硅谷的叙事体系中,至少存在两个AGI的概念。一个是硅谷巨头所表述的,一个是AI研究者所信仰的。已经实现或接近AGI,险些是硅谷巨头当下最迫切的想要公布的。它们面对大模子变现与应用规模落地的压力。研究机构EpochAI发现,ChatGPT用户总数的增长速率,一直快于付费用户的增长速率,因此,付费用户的比例一直在降落;与此同时,每个用户处理惩罚的词元的均匀数目又增长了许多。AGI好坏常有卖点的营销手段,着实也是一种巨头在贸易叙事上下文中的“幻觉”。 黄仁勋称,假如按照当前用于评估AI性能的测试标准来衡量,压根就不必要根天性的技术革新,就能在近期实现AGI的目标。但实现这种水平的AGI,似乎对OpenAI的员工已经没有多少吸引力了。硅谷巨头口中的技术信仰,已经布满了铜臭味。它们如今对AGI的表述与态度,是对追求AGI门路的AI人才的反动。 两年前,在令全天下震惊的董事会“政变”中,为留住奥特曼,OpenAI的员工以离职相威胁,脱离了员工OpenAI就什么都不是。但如今,OpenAI的麋集人才库破防了。硅谷的AI人才正在金钱的刺激下加速流动。扎克伯格是个乐成的搅局者,在奥特曼装腔作势地说出“最优秀的人还没有一个被他们挖走”后,就从OpenAI挖出了一个超等智能实行室(MSI Lab)的核心班底。 扎克伯格迩来从奥特曼手里挖走的核心人才,就是头脑链(CoT)概念的提出者Jason Wei。他也是加入研发o系列模子以及Deep Research的关键人物。 假如他们真的相信,OpenAI很快就能实现他们心目中的AGI,大概他们会更倾向于延迟享受,在亲眼见证这一刻后脱离;作为亲手练习出AGI的一线人才,VC们将为之疯狂,纵然还没有产物,也会奉上数十亿美元的种子轮资金;如今已经如此了。反观真正对下一阶段的AI布满信心的Ilya,纵然面对320亿美元的收购,也没故意动。 验证者定律 AGI大概已经在贸易叙事中失去了信仰的重量,但这没有妨碍顶尖AI人才继续远望技术的界限及其以外的无人区。在脱离OpenAI的那一天,Jason Wei在自己的博客上,提出了验证者定律(Verifier's Law)的框架,来猜测未来AI本事界限。 在他看来,一个使命被AI攻克的难易水平,不取决于办理它有多难,而取决于验证它的结果有多容易。办理一个数独和填字游戏好坏常困难的,但是要查验它是否精确,却又相当容易。代码天生的突破如此迅速,也正是由于尽管写代码看起来很繁琐,但任何不会写代码的人,都能轻松验证这段代码背后的步调,是否正在正常运作。 验证是否容易,可以抽象为客观性、及时性、可扩展性、低噪声(即验证结果与办理方案质量的相干性)等等特性。如今基准测试饱和的速率之快令人疯狂,但是,已往十年中险些全部盛行的测试基准,都符合它的前四条特性;假如难以验证,那么它就盛行不起来。这个逻辑,差不多就是黄仁勋表达的意思。只要存在基准可以或许很便利地测评它的,都是相对容易的;难过正是超脱于基准之外的那部分。皮查伊和卡帕西用AJI(Artificial Jagged Intelligence,非平衡人工智能)来形容这种状态。 在他看来,AI的自我改进不会“快速腾飞”,大概必要数年以致十年的时间。这与谷歌DeepMind的哈萨比斯的意见相近。这位真正的诺奖得主,认为2025年下半年会出现真正的AI Agent,但仍不能称为AGI,后者还必要2到3个"Transformer级"的范式突破,大概会在2030年后。迫于竞争压力,长期对峙独立的哈萨比斯,终极向谷歌的资源妥协了,但仍在为平衡贸易需求和研究抱负而挣扎。 扎克伯格已经树起了个人超等智能(Personal SuperIntelligence)的大旗。Meta花了约150亿美元收购ScaleAI的49%股权,除了“洗劫”核心人才,恐怕还看上了它在验证上的履历。“人类最后考试”就是ScaleAI主导提出的。这大概无助于Meta突破那些真正难以验证的范畴,但至少可以通过不停推动基准测试的优化,去扩展可验证性的最大空间。对于Meta而言,这仍然是有巨大贸易代价的。 而那些投奔扎克伯格的AI人才,不管是不是真的被他对PSI的“技术信仰”所感动,至少拥有了“只管少的管理工作”,“尽大概多的GPU”以及“公道的回报”。Meta在俄亥俄州打造的天下上最大的算力集群名叫普罗米修斯(Prometheus),规模1GW,明年上线;路易斯安那州的许珀里翁(Hyperion),高达5GW,面积足以覆盖曼哈顿岛;未来还会有更多以此类“泰坦”定名的超大规模集群。 “当AI可以创造出真正的、活生生的独角兽时,我们无疑就实现了AGI,”上个月,还没从OpenAI脱离时,Jason Wei在X上表露心迹说,“不是代价10亿美元的公司,而是真正带螺旋角的粉红马。” |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP
关于我们|广告合作|联系我们|隐私条款|免责声明| 时代威客网
( 闽ICP备20007337号 ) |网站地图
Copyright 2019-2024 www.eravik.com 版权所有 All rights reserved.


