科技信息

GPT-4“自我反思”后本事大增，测试体现提升 30％

IT之家 4 月 4 日消息，OpenAI 最新的语言模子 GPT-4 不光可以或许像人类一样天生各种文本，还可以或许计划和实行测试来评估和改进自己的体现。这种“反思”技能让 GPT-4 在多项难度较高的测试中，都取得了明显的进

IT之家 4 月 4 日消息，OpenAI 最新的语言模子 GPT-4 不光可以或许像人类一样天生各种文本，还可以或许计划和实行测试来评估和改进自己的体现。这种“反思”技能让 GPT-4 在多项难度较高的测试中，都取得了明显的进步，测试体现提升 30%。

GPT-4 是继 GPT、GPT-2 和 GPT-3 之后，OpenAI 推出的开始进的体系，也是现在最大的多模态模子（可以担当图像和文本输入，输出文本）。其使用深度学习技能，使用人工神经网络来模仿人类的写作。

研究职员诺亚辛恩（Noah Shinn）和阿什温戈平纳特（Ashwin Gopinath）在论文中写道：“我们开发了一种新颖的技能，让 AI 署理可以或许模仿人类的自我反思，并评估自己的体现。GPT-4 在完成各种测试的时间，会增长一些额外的步调，让它可以或许自己计划测试来查抄自己的答案，找堕落误和不敷之处，然后根据发现来修改自己的办理方案。”

在 HumanEval 编码测试中，GPT-4 使用自我反思环路，正确率从 67% 上升到 88%

GPT-4 可以通过计划和实行测试来驳倒其自身的性能，如 AlfWorld 测试结果所示，可以大大改善其性能

研究团队使用这种技能对 GPT-4 举行了几种差别的性能测试。在 HumanEval 测试中，GPT-4 须要办理 164 个从未见过的 Python 编程标题，本来正确率为 67%，使用反思技能后，正确率提升到了 88%。在 Alfworld 测试中，AI 须要在各种差别的交互环境中，通过实行一些答应的利用，来做出决定和办理多步任务。使用反思技能后，GPT-4 的正确率从 73% 进步到了 97%，只有 4 个任务失败。在 HotPotQA 测试中，GPT-4 可以访问维基百科，并复兴 100 个须要从多个支持文档中分析内容和推理的标题，本来正确率为 34%，使用反思技能后，正确率进步到了 54%。

这项研究表明，AI 标题的办理方案偶然间是依赖AI 自己。IT之家发现，这有点像天生对抗网络，这是一种让两个 AI 相互进步技能的方法，比如一个 AI 试图天生一些看起来像真实图片的图片，另一个 AI 试图分辨哪些是假的，哪些是真的。但在这种环境下，GPT 既是写作者又是编辑，通过自我反思来改进自己的输出质量。

收藏邀请

上一篇：英伟达正在“把持”AI财产，国内厂商预备好了吗？下一篇：不效仿乔布斯，积极做好自己，库克怎样重塑了市值第一的苹果

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

GPT-4“自我反思”后本事大增，测试体现提升 30％

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端