科技信息

OpenAI发布AI智能体Operator，能像人类一样自主操控欣赏器

划重点：OpenAI破晓举行直播活动，发布AI智能体Operator。Operator目前以“研究预览”形式向美国的ChatGPT Pro用户开放。Operator将徐徐推广到ChatGPT的Plus、Team和Enterprise用户，并徐徐向其他国家用户开放。Oper

划重点：

OpenAI破晓举行直播活动，发布AI智能体Operator。Operator目前以“研究预览”形式向美国的ChatGPT Pro用户开放。
Operator将徐徐推广到ChatGPT的Plus、Team和Enterprise用户，并徐徐向其他国家用户开放。
Operator的背后的驱动力是新模子CUA，它融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。
Operator大概存有风险或滥用情况，OpenAI为此还推出了“接受模式”，要求用户手动输入支付详情或登录信息。

OpenAI Operator发布会全程回顾，见证AGI的婴儿态

1月24日消息，OpenAI在北京时间破晓举行直播活动，发布了市场等候已久的AI智能体Operator（意为利用员），它可以或许署理用户实验基于网页的利用，像人类一样点击、滚动和输入笔墨，完成诸如购买杂货、预订餐厅以及提交费用陈诉等使命。

在此之前，包罗微软、Salesforce和Workday等贸易软件公司纷纷推出了各自的智能体。谷歌和人工智能初创公司Anthropic近期也推出了雷同的智能体工具，它们与OpenAI的Operator相似，可以或许欣赏网页并与菜单和按钮举行交互。

但Operator的特点是，与其他各家Agent相比，它会通过CUA的体系举行复杂的头脑链反思和步调规划。这可以大大进步其完成使命的精度和复杂性。在不依赖对详细使命举行精调的情况下，Operator就能泛化的完成多种复杂使命。虽然在直播的实机演示中，OpenAI仅仅展示了网购、订餐等基础利用。但在后续的部分用户测试中，它乃至可以完成在Arxiv上举行论文分类搜索，阅读多篇论文并完成综述整理的复杂工作。而且这个工作肯定是不太大概被纳入传统精调过的“意图明确”框架内的。

别的，CUA自己在网页控制和体系控制方面也到达了SOTA。虽然仍和人类有相当差距，但在演示中团体举措相当流畅。

目前，OpenAI的“Operator”智能体以“研究预览”（research preview）的形式向美国的ChatGPT Pro用户开放。这一阶段表明该产物仍处于发展初期，大概存在范围性，在演进过程中大概会出现错误。ChatGPT Pro的订阅费用为每月200美元，该服务专为须要高级AI功能的专业用户筹划，提供无穷制访问包罗GPT-4o和o1在内的高级模子。

OpenAI表现，筹划将Operator功能徐徐推广到ChatGPT的Plus、Team和Enterprise用户。在直播活动中，OpenAI首席实验官山姆·奥特曼（Sam Altman）提到，Operator功能将很快在其他国家推出，但欧洲地域大概须要更长时间。

OpenAI首席运营官布拉德·莱特卡普（Brad Lightcap）表现，Operator可以或许在家庭和工作中节流时间，尤其是在自动化常见使命方面存在“巨大潜力”。”他指出：“Operator从根本上改变了人们与盘算机的交互方式。这是一个困难的技能寻衅，其代价取决于它的实用性。”

别的，OpenAI正在与包罗Instacart、Uber、eBay、Priceline、OpenTable和Etsy在内的科技公司合作，以便让用户在Operator主页上更便捷地访问这些公司的网页。

利用新模子CUA

Operator背后的驱动力是OpenAI的新模子“盘算机利用智能体”（Computer-Using Agent，简称CUA）。

该模子融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。CUA颠末练习，可以或许像人类一样与图形用户界面（GUI）交互，包罗屏幕上的按钮、菜单和文本框。这种能力使其可以或许机动地实验数字使命，无需依赖特定利用体系或网页的API。

CUA的开辟基于多年在多模态明确和推理领域的基础研究。它结合了高级的图形用户界面感知能力与结构化的标题办理能力，可以或许将使命分解为多步调筹划，并在遇到寻衅时自我调整和改正。

这一能力标记着人工智能发展的新阶段，使模子可以或许利用人类一样平常依赖的工具，并为一系列新应用打开了大门。

只管CUA仍处于早期阶段且存在范围性，但它已经在多个基准测试中取得了新的最高程度：在OSWorld的完备盘算机利用使命中乐成率为38.1%，在WebArena中为58.1%，在WebVoyager的网页使命中为87%。

这些结果表明，CUA可以或许在多样化的情况中利用单一通用动作空间（a single general action space）举行利用。

CUA的工作原理

CUA通过处置惩罚原始像素数据来明确屏幕上的动态，并借助虚拟鼠标和键盘完成利用。它可以或许导航多步调使命、处置惩罚错误并适应意外变革，从而在各种数字情况中实验使命，比方填写表单和欣赏网站，无需依赖特定的API。

在用户指令的引导下，CUA通过一个迭代循环来整合感知、推理和举措：

感知：盘算机的屏幕截图被纳入模子的上下文中，为模子提供盘算机当前状态的视觉快照。

推理：CUA通过头脑链来推导下一步利用，综合考虑当前和已往的屏幕截图及已实验的动作。这种“内心独白”（inner monologue）机制通过评估观察结果、跟踪中央步调和动态调整，提拔了使命实验的服从。

举措：CUA实验点击、滚动或输入等利用，直至使命完成或须要用户干预。只管它能自动处置惩罚大多数步调，但在涉及敏感利用（如输入登录信息或相应验证码）时，会寻求用户确认。

范围性与风险

只管AI智能体潜力巨大，但其易用性仍面对寻衅。已发布的各款智能体均答应通过为用户实验使命来节流时间和进步服从，但大多数人尚未在一样平常生存中广泛利用此类工具。

比方，苹果于客岁秋季在其iPhone利用体系中推出了人工智能助手Apple Intelligence，但目前该工具尚未广泛应用于一样平常事件。纵然是企业，大多数AI智能体也仅处于测试阶段或以有限的方式利用，以制止袒露公司秘密数据或引发网络安全风险。

莱特卡普表现，OpenAI大概会为企业客户增长特定的控制步调或安全护栏，但目前公司仍专注于首批用户。他指出，OpenAI已经开辟了隐私、安全和控制功能，以确保智能体不会偏离其编程设定，最告急的是，保持用户对人工智能的控制权。

OpenAI指出，Operator大概面对的风险或滥用情况包罗：恶意网站试图诱骗用户、用户试图诱骗署理，以及“提示注入”（prompt injections）攻击，后者大概导致用户将敏感信息或资金发送到恶意网站。

为应对这些风险，Operator推出一项名为“接受模式”（takeover mode）的功能，要求用户手动输入支付详情或登录信息。别的，Operator在实验高风险使命（如发送邮件）之前会征求用户答应，而且不会处置惩罚涉及银行交易或决定求职申请的使命。

同时，Operator不会利用用户之前与ChatGPT共享的数据来实验利用。莱特卡普表现，只管目前存在范围性，但OpenAI在颠末“充实准备和审慎评估”后，以为Operator已具备有限发布的条件。（腾讯科技特约编译无忌）

收藏邀请

上一篇：本日发布的这1TB顶配新机，代价是TM疯了吧下一篇：字节跳动的AGI野心

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

OpenAI发布AI智能体Operator，能像人类一样自主操控欣赏器

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端