快捷导航
科技信息

2025 AI Agent迷局:谁在玩真的,谁在演戏?

编者按:以变革应对变局,以远见逾越未见。适道、大象新闻、大象产业联合腾讯新闻、腾讯科技,推出2024年末筹谋《变局之下》,回望2024、猜测2025,让洞见穿越时间,向未来寻求确定。作者狮刀、Rika编辑 腾讯科技 郑

编者按:以变革应对变局,以远见逾越未见。适道、大象新闻、大象产业联合腾讯新闻、腾讯科技,推出2024年末筹谋《变局之下》,回望2024、猜测2025,让洞见穿越时间,向未来寻求确定。

作者狮刀、Rika

编辑 腾讯科技 郑可君、郝博阳

2023年底,斯坦福大学发布了一款引发轰动的AI实行项目——"小镇模仿游戏"。在这个捏造小镇里,25个AI脚色可以或许自主交谈、创建关系、订定操持,显现出了令人惊叹的交际能力。这个实行让人们第一次对AI Agent(智能体)产生了等待——具有自主意识和决定能力的AI助手指日可待。

一年已往了,AI Agent的概念在业界炙手可热。微软、Google等科技巨头纷纷布局,初创公司们也争相推出各类"Agent"产物。然而,当我们过细观察这些号称是"Agent"的产物时,会发现一个尴尬的现实:它们与真正的Agent相去甚远,更像是仅仅具备天然语言理解能力的对话机器人。

这种"形似神不似"的现象,在AI硬件领域也不停上演。2024年10月,智能戒指品牌Oura推出了最新款Oura Ring 4,并"识时务"地到场了AI功能。很快,Oura估值超50亿美金,成为了商业化最乐成的"AI硬件"厂商之一。然而,一个共识是:Oura的乐成与AI关系并不大,其焦点代价仍在于康健追踪这一基础功能。相比之下,真正主打AI的硬件产物,如AI Pin、Rabbit R1却遭遇了"上市即翻车"的运气。

什么称得上AI Agent?随手打开一个大模子APP,映入眼帘的Prompt Agent?照旧编程领域的专业 Agent Cursor?亦或是钢铁侠的万能助手Jarvis?

美国VC Madrona合资人Jon Turow曾指出:当你聊过充足多的从业者,你会发现有一系列差别概念的东西,它们都叫做Agent 。

假如将AI Agent形容为一场马拉松,2025年的AI Agent行至何处?

1

2024年AI Agent观察:一半是海水,一半是火焰

  • 热闹的情形:各路玩家就位

2024上半年,大模子价格战还在大张旗鼓举行;下半年,AI Agent争夺战就已经蓄势待发。

外洋市场,OpenAI、Anthropic、微软、谷歌等科技巨头纷纷公布相干渴望,将自家Agent力气看成牌桌上的告急筹码。

10月,Anthropic 推出了名为“Computer Use”的AI Agent体系,号称可以或许“像人一样操纵盘算机”。这是一个特殊API,答应开辟者指导 Claude完成各种盘算机操纵任务——观察屏幕内容、移动鼠标、点击按钮以及打字等等。开辟者可以通过该 API 将书面指令转换为具体的盘算机指令,从而实现主动化任务。

(图片:Anthropic开辟职员演示Computer use)

微软也是AI Agent的告急推动者。2024年10 月,微软公布了一项告急操持:面向 Dynamics 365业务应用平台,开辟摆设10款AI Agent——将重要服务于企业的贩卖环节、管帐业务以及客户服务等关键领域。按照时间表,这些AI Agent将在年底开放公测,测试阶段预计一连到 2025 年初期。

(图片:微软CEO展示Copilot与AI堆栈)

谷歌的反应相对较慢,但在年底也赶上了进度。12月,谷歌发布了全新多模态大模子Gemini 2.0。在新模子的加持下,谷歌内置了三款AI Agent——“通用大模子助手”Project Astra、“欣赏器助手”Project Mariner 和“编程助手”Jules。

“编程助手”Jules可以或许作为自主署理直接集成到GitHub的工作流程体系中,分析复杂的代码库,跨多个文件实行修复,并预备具体的拉取请求,无需一连的人工监视;而在游戏《部落辩论》演示中,谷歌AI Agent不但可以或许向玩家先容兵种特性,给出组合发起,还可以在Reddit检索信息,为玩家提供脚色选择发起。

(图片:玩家与谷歌AI Agent互动)

OpenAI虽然是基础模子的领先者,在Agent方面布局却略显迟缓。7月,OpenAI 更新AGI门路图,并指出自己处于第一层,靠近达到第二层;而第三层才是AI Agent。

section style="line-height: 1.75em; margin-bottom: 8px; margin-left: 8px; margin-right: 8px" data-exeditor-arbitrary-box="image-box">

(图片:OpenAI 界说的人工智能发展 5 阶段)

OpenAI预计将于2025年1月推出全新AI Agent——Operator,该体系可以或许主动实行各种复杂操纵,包罗编写代码、预订观光、主动电商购物等。据悉,Operator大概会在Computer use的基础上举行大幅度创新和应用简化,扩大AI Agent的利用范围和应用场景。

国内市场,百度、阿里、腾讯、智谱等大厂也纷纷入局。

在B端,百度文心智能体平台、腾讯元器、讯飞星火智能体创作中央、通义智能体、字节扣子等面向企业用户提供了智能体创建平台,并开始在其AI智能助手界面中添加AI Agent入口。

在C端,付出宝旗下AI App支小宝、智谱AutoGLM点燃了斲丧者用户的豪情。根据演示,智谱AutoGLM可以或许欣赏并理解屏幕信息,做出任务规划,实现手机上常用操纵的模仿实行——只需吸收简单的笔墨/语音指令,它就可以模仿人类操纵手机,在朋侪圈点赞,在美团点外卖,在携程订旅馆等等。

  • 岑寂的现实:当我们在谈论AI Agent时,到底是在谈论什么?

假如只看到上述的热闹情形,你大概会得出结论——2024年是AI Agent的当打之年。

但用户可以或许真正依靠的AI Agent,实在寥若晨星。

只需花3秒钟思考——你喜欢用哪几款AI Agent?假如你是步调员,答案大概只是Cursor。假如我们换个题目——你喜欢用哪几款AI大模子?答案会五花八门,比如ChatGPT、Gemini、Claude、Kimi等等。

至少从实感来说,现在大热的AI Agent照旧“虚火”。

主因是“不靠谱”和“鸡肋”。AI Agent依靠LLM“黑盒”,自己就存在不可猜测性,而工作流程更是要将多个AI 步调毗连起来,会加剧这些题目,尤其是对于须要精确输出的任务。用户难以确保Agent可否始终提供精确、符合上下文的相应。

LangChain发布的State of AI Agents可以作为告急参考。其观察涉及的1300多位受访者指出,性能质量(41%)是重要关注点,告急性远超本钱(18.4%)和安全(18.4%)等因素。乃至对于向来格外关注本钱的小企业而言,此中45.8%将性能质量列为重要关注点,本钱因素仅为22.4%。同时,陈诉指出,生产中采取AI Agents的重要挑战包罗:开辟职员很难向团队和长处相干者表明 AI Agent 的功能和举动。

别的,虽然AI Agent依靠的基座LLMs在Tool use方面表现不错,但它们速率不快且本钱高,特殊是须要举行循环和主动重试时。WebArena 排行榜对 LLM智能体在现实任务中的表现举行了基准测试。结果表现,即便是表现最好的模子SteP,乐成率也只有35.8%,而GPT-4的乐成率仅达到14.9%。

那么,市面上不能“完全自理”的AI Agent算得上Agent吗?

假如我们按吴恩达的思绪就很好理解了——AI Agent是可以分层级的。他提出了Agentic System(智能体体系),并认为形容词“Agentic”比名词“Agent”能更好地资助我们理解这类智能体的本质。犹如主动驾驶汽车L1-L4,Agent的进化也是一个过程。

BabyAGI首创人Yohei Nakajima对于AI Agent的分类,同样值得参考。

1、手工制作Agent:由 Prompt和API 调用构成的链条,具有一定自主性,但束缚较多。

特性:流水线机器人,按照固定步调完成任务。

举例:它就像一个专门订票的助手——当你告诉航班需求时,它可以或许直接调用API搜刮并完成预订;然而一旦涉及复杂行程规划,手工制作Agent就会“卡住”(接待大家代入产物)。

2、专业Agent:在一组任务范例和工具内动态决定要做什么,比手工制作Agent束缚少。

特性:娴熟工匠,可以或许在特定领域(比如木工)熟练地利用工具,不但能按照要求制作家具,还能根据现实需求调解操持,调用材料。

举例:AutoGPT通过CoT技能分解复杂题目,动态选择最优办理路径。面临一个市场研究任务,AutoGPT能主动分解任务为“搜刮趋势”“整理数据”“天生陈诉”等子任务并完成。

3、通用Agent:Agent的AGI——现在还处于理论概念阶段,尚未实现。

特性:万能助手,就像钢铁侠的Jarvis。你可以扣问它任何题目,它不但能理解你的需求,还能联合知识和情况动态适应,提供创新办理方案。

举例:还没有真正能实现的产物,相干研究包罗更强的多模态交互和长期影象优化。

处于当前的汗青节点,Prompt Agent数量最多,表现为大模子APP里的各处Agent;垂直领域的专业Agent正处于爆点,并因实在用性备受资源青睐;人类所等待的真正Agent——万能助手Jarvis,有待关键技能突破。这也意味着未来一段时间内,我们能看到更多“L1-L4”之间的技能进化。

  • 这一年AI Agent“皮下”技能进化到哪儿了?

根据Lilian Weng罗列的公式:Agent = LLM+Memory+Planning skills+Tool use

假设你是暗中摒挡界的“五虎星”。LLM代表你的知识储备,包含所有菜系菜谱;Memory类似于你的厨师条记,记录着差别食客的口胃需求,输给“小当家”的汗青教训;Planning比如你的做菜规划,面临差别要求,是先炸再烤,照旧先煮再炸;Tools则是你的邪术厨具,包罗怎样调用差别刀具(软件),资助实行复杂的任务。

AI Agent的突破取决于各项技能的进步。

起首是LLM。在GPT5如许的强悍“大脑”出现之前,OpenAI就发现了推理引擎的能力。

2024年10月,OpenAI高级研究科学家、德扑AI之父Noam Brown提出:让AI模子思考20秒所带来的性能提升,相当于将模子扩大100,000倍并训练100,000倍的时间。

Brown所指的技能便是System 1/2 thinking,正是OpenAI o1长出“推理能力”的法门。

System 1,即“快思考”,你看到一只苹果,不须要思考,就知道这是水果;System 2,即“慢思考”,你要做一道17*24的数学题,则需拆解步调来思考,答案才更精确。

近期,谷歌DeepMind研究职员也将这项技能集成到AI Agent中,并开辟了Talker-Reasoner框架。System 1是默认运行的“快速模式”,而System 2作为“备用引擎”随时待命。当System 1感到狐疑时,会将任务交给System 2处置惩罚。“双引擎”共同运行,对于办理复杂、冗长的任务资助巨大,突破了传统AI Agent实行业务流程的方法,极大提升了服从。

其次是影象机制。当天生式AI开始“颠三倒四”,大概不是性能题目,而是影象力不佳。这时间就须要RAG(检索增强型天生)来帮忙。它是LLM“外挂”般的存在,可以或许利用外部知识库为LLM提供相干上下文,防止LLM不懂装懂。

然而,传统RAG流程只思量一个外部知识源,不能调用外部工具;仅天生一次性办理方案,上下文只检索一次,不能举行推理或验证。

在此情况下,融合Agent能力的RAG应运而生。虽然Agentic RAG在团体流程上与传统RAG一脉相承:检索-合成上下文-天生,但其融入了Agent自主规划能力,可以或许适应更加复杂的RAG查询任务——决定是否须要检索;自主决定利用哪个检索引擎自主规划利用检索引擎的步调;评估检索到的上下文,并决定是否重新检索;自行规划是否须要借助外部工具。

假如说,原始RAG是坐在图书馆查察特定题目;那么,Agentic RAG就像拿着iPhone,调用Google欣赏器、电子邮件等等搜刮题目。

别的,2024年YC孵化的开源Mem0项目,也有望成为RAG助手,并为AI Agent插上个性化影象的翅膀。

Mem0像是大脑的“海马体”,为LLM提供了一个智能、自我优化的影象层。它能举行信息分层存储——将短时信息转化为长期影象。类似于,你会整理“新学知识”,而后存入脑海;它还能创建语义链接——通过语义分析为存储的知识创建关联网络。类似于,你告诉 AI自己喜欢看侦察电影,它不但能记着,还会推测你大概喜欢的犯罪记录片。

基于此,Mem0可以或许明显提升AI Agent个性化影象——动态记任命户偏好、举动和需求,创建“私家记事本”。比方,当你告诉AI Agent下周是妈妈生日,它不但会实时提醒你送上祝福,还会根据“影象中”你和妈妈的喜欢,给出送礼发起,乃至可以或许跨平台“货比三家”,奉上购物链接。

在RAG方面的突破不止于此,俄亥俄州立大学和斯坦福大学的科学家团队提出了一个风趣的思绪:让AI拥有一个类似人类海马体的“影象大脑”。他们从神经科学的角度出发,模仿人脑海马体在长期影象中的作用,操持出一个名为HippoRAG的模子,像人脑一样高效地整合和搜刮知识。实行表明,“影象大脑”可以或许在多跳问答等须要知识整合的任务上取得大幅提升。大概探索出让大模子具备“类人”影象的一个全新方向。

Tool use的进步更是肉眼可见。比方,Claude的Computer Use,通过构建API,将天然语言提示转化为各种电脑操纵指令,由开辟者主动化重复性的任务、举行测试和质量保证,以及开放式研究。以后,AI不须要一个个专门的API“钥匙”也能“一次性”调用各种软件完成各种操纵:用Word写文档,用Excel处置惩罚表格,用欣赏器搜刮信息。虽然如此,现在Computer Use能力还不美满:不能在内部数据上训练该功能;受限于上下文窗口等等。Anthropic团队也表现,现在Claude的盘算机利用程度只处于类似“GPT-3 期间”的早期阶段,未来另有很大提升空间。

值得留意的是,AI Agent的视觉能力也取得了进步。比方,智谱发布的 GLM-PC 将其通用的视觉-操纵模子 CogAgent 应用到了盘算机上。其可以或许模仿人类的视觉感知来从情况中获取信息输入,以举行进一步的推理和决定。

规划能力方面。Planning包含任务分解——将大任务分别成小任务;反思和提炼——基于已有动作举行自我反思,从错误中学习优化接下来的动作。

现在,有论文提出更为新颖的分类法:任务分解、多操持选择、外部模块辅助规划、反思与细化、影象增强规划。此中,多操持选择,即给AI Agent一个“选择轮”,天生多个操持,挑一个最好的来实行;外部模块辅助规划,即借助外部规划器,类似强化学习的判官。影象增强规划,就像 一个影象面包,记着已往履历,为未来规划提供资助。这些方法并不孤立,而是相互交错,共同提升AI Agent的规划能力。

一年以来,Agent“皮下”各项能力均取得了进步,此中Tool use能力已经开端落地;影象机制的进步非常值得等待;LLMs的进步则取决于巨头的能力边界等等。但对于Agent而言,其能力的最大化并非各项技能简单的加成,任何一项技能的突破均有望使其迎来质变。

未来,AI Agent进化的告急挑战包罗但不限于:怎样实现低延长、带视觉理解的实时反馈;怎样构建个性化的影象体系;怎样在捏造与物理情况都具备鲁棒的实行能力等等。只有当AI Agent从“工具”到“工具利用者”时,真正的Killer Agent就会出现。

2

资源的选择——大模子遇冷,AI Agent当立

有人说,现在大模子卷不动了,要卷就卷AI Agent。

2024年,曾经争做“做中国OpenAI”的大模子公司不得已食言,以“六小虎”智谱AI、零一万物、百川智能、MiniMax、月之暗面和阶跃星辰为例,多数公司已经开始举行业务调解,乃至职员缩减。大厂依附其雄厚的家底,还能继续卷研发;更多初创企业被迫直面现实,转向大模子应用层面,寻求更低的本钱和更快的回报。

同时,敏锐的资源也将眼光投向了AI应用层。

桔子IT数据表现,2024年前9个月,国内AI领域发生了317起融资案例,月均融资金额42亿元,不到客岁的两成。此中,融资最多的5家公司拿走了超212亿,相当于本年国内AI融资总额的63%。

值得留意的是,大模子和AI Agent项目受投资人的关注度最高——大模子发生19起融资案,AI Agent发生了18起。其次是AI视频天生(10%),剩下50%投资案例的方向较为分散,被19个方向瓜分。

由此,在大模子“赢家通吃”的局面下,AI Agent既是AI初创公司的最佳方向,也是国内外资源的笃定之选。

YC合资人、资深投资人Jared指出,垂直领域 AI Agent 作为一种新兴B2B 软件,有望成为比SaaS大10倍的新兴市场。依附替换人工操纵、提升服从的明显上风,这一领域大概催生出市值超过3000亿美元的科技巨头。

投资人所看中的AI Agent都长什么样?

最出圈的当属AI编程神器Cursor。缘故原由不外乎代码是LLMs最轻易把握的能力,其天生的训练数据重要来自GitHub上的开源代码,大部门都是“有效数据”。此前,Cursor是根据用户需求,提供发起代码。现在,Cursor可以直接以实现需求为目的,一口吻资助你创造代码文件,预备好运行情况。你只需点击启动按钮,就可以运行代码。

除此之外,即便2024年尚未产生真正的Killer Agent,但现实上在细分领域,Agent已经有各处开花之势了。

根据YC团队的最新分享。现在已经获得投资的Agent项目大多在toB领域。

问卷观察和分析:Outset将 AI Agent应用于问卷观察和分析领域,可以替换传统的人工观察和分析工作,比方 Qualtrics等公司提供的服务。

软件质量测试:Mtic利用 AI Agent举行软件质量测试,可以完全代替传统的 QA 测试团队。与之前的 QA 软件即服务公司(如 Rainforest QA)差别,Mtic不但提高了QA 团队的服从,还能完全代替人工测试。

政府合同竞标:Sweet Spot利用 AI Agent主动搜刮、填写政府合同的标书,可以替换人工完成这些繁琐的任务。

客户支持:Powerhelp利用 AI Agent,主动完成人工接听电话、回复邮件息争决题目,而且可以或许根据用户提问和汗青记录提供个性化的办理方案,提升其满意度。

人才雇用:Priora和Nico,利用 AI Agent举行技能筛选和开端雇用,可以替换人工完成这些任务。

用吴恩达的发言做总结:通往 AGI 的蹊径感觉更像是一段路程,而不是一个目的地。但我认为Agent式工作流,可以资助我们在这个非常漫长的路程中向前迈进一小步。换句话说,即便我们临时无法拥有“万能Agent”,但多个垂直领域的专业Agent徐徐出现,将让我们不停获得近似拥有Jarvis的体验。

3

2025年:有望成为AI Agent商用爆发元年

克日,前OpenAI联创、SSI首创人 Ilya Sutskever直接公布:预训练以后将彻底终结——我们只有一个互联网,训练模子须要的海量数据即将枯竭,唯有从现有数据中探求新的突破,AI才会继续发展。

Sutskever用人类大脑发展举行类比:正如人类大脑体积制止生长后,人类智慧仍在进步。AI未来发展将转向在现有LLM上构建 AI Agent和工具。他猜测,以后的突破点,就在于智能体(Agentic)、合成数据和推理时盘算。此中,可以或许自主完成任务的AI Agent,是未来的发展方向。

值得留意的是,与吴恩达一样,Sutskever同样利用“形容词”Agentic形貌智能体。

根据线性资源Bolt观点:我们可以用少量的、适量的、高度的Agentic“能力”形貌Agent应用的能力。比方,Router(路由)类体系利用LLM将输入路由到特定的鄙俚工作流中,具有少量的Agentic能力;State Machine(状态机)类体系利用多个LLMs来实行多个路由步调而且有能力确定每个步调是继续照旧完成,具有相当的Agentic能力;而Autonomous(自主体)类体系更进一步,可以或许利用工具乃至创造符合的工具去推进体系的进一步决定,具备完全的Agentic能力。

基于此,厂商在夸大产物的Agent属性前,不妨先答复“How agentic is my system?”

当前不少领域的专业AI Agent依然不够成熟。相干观察表现,输出禁绝确、性能差能人意、用户不信托等题目困扰其落地。但假如我们换个思绪:短期内商业化最乐成的AI Agent,不一定是看起来“Agentic化”最高的产物;而是可以或许均衡性能、可靠性,以及用户信托的产物。

顺着这条思绪,专业AI Agent最有前程的发展蹊径大概是:先重点应放在利用AI增强现有工具,而不是提供广泛的全自主独立服务。

用人机协同的方法,让人类到场监视和处置惩罚边缘案例。根据当前的能力和范围,设定不离开现实的渴望。通过联合严格束缚的LLMs、良好的评估数据、人机协同监视和传统工程方法,在主动化等复杂任务方面实现可靠且良好的结果。

比方,红杉投资组合中的Rocks公司,其Agent是将人类员工融入此中。最初,Rocks开辟了一项主动撰写、主动发送电子邮件的技能。但他们发现将人类贩卖纳入流程时,表现提升了333倍。于是,Rocks移除了主动发送的功能。

根据具体业务场景,有些公司可以开辟Agent完成任务的技能,比如网络安全领域的Expo;而有些公司则只管选择用Agent“增强”人类员工,比如Rocks。

那么,2025年会发生什么?

起首,不止是编程,更多垂直领域将跑出“种子选手”。红杉合资人 Konstantine Buhler猜测:医疗和教诲等“高服务本钱”领域将成为 AI 技能的下一个告急战场。

同时,根据LangChain陈诉表现:人们渴望将耗时任务交给AI Agent——充当“知识过滤器”:快速提炼关键信息,用户无需自己手动筛选海量数据;“生产力加快器”:协助用户安排日程、管理任务,让人类专注于更告急的工作;“客服神助攻”:资助企业更快地处置惩罚客户咨询、办理题目,大幅提升团队的相应速率。

换句话说,所有耗时、耗力、耗本钱的工作有望率先被垂直领域专业AI Agent替换。

其次,AI Agent摆设将由“单”变“多”。一方面,AI Agent将从单一智能体发展到“群体协作”模式。2025年会出现更多Multi-agent模式,多个Agent 扮演差别脚色互助完成任务。比方,清华面壁智能的开源项目ChatDev。每个 Agent 被赋予了差别的身份,有的是 CEO,有的是产物司理,有的是步调员,它们可以或许相互相互互助,共同完成任务。

另一方面,随着模子对图像和视频信息的处置惩罚能快速提升,2025年将开始出现更为综合性的多模态交互,AI可以或许通过物联、特定信息等多种感知通道进协同。多模态输和输出使AI交互性更强、交互频次更,适场景也更加丰富,AI产物团体平明显提升。

此中,Agent作为融合感知、分析、决定和执能的智能体,其交互的主动性和动化远超现有工具。

根据量子位智库观察:从技能和配套办法两发展来看,从2025年开始,AI Agent即将泛投使。AI Agent有望带来独属于AI 2.0期间的交互式、产物形态和商业模式。

结语

在电影《2001:太空周游》的开头,一群草食人猿挣扎在饥饿和殒命的边缘,人猿首领偶然挥动了一动手里的棒骨,“发现”它居然是一件趁手的工具。以后,他们开始狩猎小动物,成为食肉动物,渐渐站上了食品链顶端。

假如未来的人类俯瞰2025年,大概会发现,这又是一个人类进化的关键时候,而AI Agent正是那根趁手的“棒骨”。

正如Andrej Karpathy所言,AI Agent代表着一个疯狂的未来。

风趣的是,Agent一词源于拉丁语的Agere,意思是“to do”。

怎样捉住这个疯狂的未来?你大概只须要“Agent”。

收藏 邀请
上一篇:抖音副总裁回应“钱读成米”:平凡用户创作没有这类限制下一篇:刘强东给故乡乡亲们的年货已到,还给他的每位小学老师准备10万元红包
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP