快捷导航
科技信息

GPT-4“自我反思”后本事大增,测试体现提升 30%

IT之家 4 月 4 日消息,OpenAI 最新的语言模子 GPT-4 不光可以或许像人类一样天生各种文本,还可以或许计划和实行测试来评估和改进自己的体现。这种“反思”技能让 GPT-4 在多项难度较高的测试中,都取得了明显的进

IT之家 4 月 4 日消息,OpenAI 最新的语言模子 GPT-4 不光可以或许像人类一样天生各种文本,还可以或许计划和实行测试来评估和改进自己的体现。这种“反思”技能让 GPT-4 在多项难度较高的测试中,都取得了明显的进步,测试体现提升 30%。

GPT-4 是继 GPT、GPT-2 和 GPT-3 之后,OpenAI 推出的开始进的体系,也是现在最大的多模态模子(可以担当图像和文本输入,输出文本)。其使用深度学习技能,使用人工神经网络来模仿人类的写作。

研究职员诺亚辛恩(Noah Shinn)和阿什温戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技能,让 AI 署理可以或许模仿人类的自我反思,并评估自己的体现。GPT-4 在完成各种测试的时间,会增长一些额外的步调,让它可以或许自己计划测试来查抄自己的答案,找堕落误和不敷之处,然后根据发现来修改自己的办理方案。”

在 HumanEval 编码测试中,GPT-4 使用自我反思环路,正确率从 67% 上升到 88%

GPT-4 可以通过计划和实行测试来驳倒其自身的性能,如 AlfWorld 测试结果所示,可以大大改善其性能

研究团队使用这种技能对 GPT-4 举行了几种差别的性能测试。在 HumanEval 测试中,GPT-4 须要办理 164 个从未见过的 Python 编程标题,本来正确率为 67%,使用反思技能后,正确率提升到了 88%。在 Alfworld 测试中,AI 须要在各种差别的交互环境中,通过实行一些答应的利用,来做出决定和办理多步任务。使用反思技能后,GPT-4 的正确率从 73% 进步到了 97%,只有 4 个任务失败。在 HotPotQA 测试中,GPT-4 可以访问维基百科,并复兴 100 个须要从多个支持文档中分析内容和推理的标题,本来正确率为 34%,使用反思技能后,正确率进步到了 54%。

这项研究表明,AI 标题的办理方案偶然间是依赖AI 自己。IT之家发现,这有点像天生对抗网络,这是一种让两个 AI 相互进步技能的方法,比如一个 AI 试图天生一些看起来像真实图片的图片,另一个 AI 试图分辨哪些是假的,哪些是真的。但在这种环境下,GPT 既是写作者又是编辑,通过自我反思来改进自己的输出质量。

收藏 邀请
上一篇:英伟达正在“把持”AI财产,国内厂商预备好了吗?下一篇:不效仿乔布斯,积极做好自己,库克怎样重塑了市值第一的苹果
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP