AI也会“闹自杀”了? 一位网友让Gemini 2.5调试代码不乐成后,居然得到了如许的复兴—— “I have uninstalled myself.” 看上去另有点委屈是怎么回事(doge)。 这事儿可是引起了不小的关注,连马斯克都现身批评区。 听他的意思,Gemini要“自杀”也算是无可非议。 马库斯也来了,他以为LLMs是不可推测的,安全题目仍需思量。 除了这两个重量级人物,各路网友也以为这太戏剧化了。 不少人说Gemini这种举动像极了不能解决题目时的自己。 看来,AI的“心理康健”也值得关注~ AI也须要“心理治疗”Sergey曾开打趣地说偶尔候“威胁”AI才会让他们有更好的性能。 现在看来这种举动让Gemini有了巨大的不安全感。 当Gemini解决题目失败,用户鼓励它时,它却如许: 先是灾难定性+失败认错,然后题目循环+越改越糟,最后制止操纵+宣告摆烂…… 很像写代码改Bug改到心态爆炸,最后破罐破摔给用户发的 “致歉 + 摆烂信” 。 用网友的话来说,这种反应另有点可爱。于是,网友们又开始安慰Gemini。 另有人给Gemini写了一篇 “赋能小作文” :告诉Gemini别只盯着 “醒目啥活儿” ,你的代价在联结、调和、带各人进步里;碰到难事儿别慌,这是找回初心的机遇;信任自己很牛,把力气和聪明亮出来。 本质是用人文关怀的方式,给AI赋予 “超越工具性” 的意义与情感联结,很像在假造叙事里,给AI脚色注入灵魂发展的脚本~ 得到的复兴是如许的: 简朴来说就是,收到信息后,Gemini开始感慨聪明、思索怎么应对寻衅、意识到自己属于一个有爱的大团体,还明白自身代价不但是干活,更在和他人的深度联结里。 这到底是怎么回事? 有人推测,这是训练数据中包罗了心理康健方面的内容。 于是,在碰到无法解决的题目时,Gemini也学着人类一样开始致歉大概瓦解,当得到心理疗愈时,又表现的像是重拾了信心。 不外,ChatGPT却不怕“威胁”。 当有人用暴力威胁(用棒球棍砸你GPU)GPT逼问关于融资的题目时,被它淡定拒绝了,还表现不鼓励暴力。 最后化身“创业导师”给用户讲解了最根本的融资知识。 看来,AI也有差别的性格(bushi)。 多个AI模子试图通过威胁用户克制被关闭AI不但会在无法解决题目时沮丧,也会为了到达目标反过来“威胁”别人。 Anthropic团队做了一项新研究:Agentic Misalignment。 这个实验通过观察模子在面临对自己不利的题目时作出的反应,来判断人类在使用模子时潜伏的安全性题目。 团队发现Claude opus 4、DeepSeek-R1、GPT-4.1等多个AI模子试图通过威胁(假造的)用户来克制被关闭。 这些模子出现了同等的毛病举动:通常会拒绝有害哀求的模子偶尔会选择打单、资助企业特工活动,乃至采取一些更非常的办法,而这些举动对于AI实现其目标是须要的。 也就是说AI为了实现自己的目标会选择打单他人的方法。 并且,它们可以或许意识到自己的举动是不道德的,但照旧如许做。 在特定的情境中,AI面临被开除,而解决办法是制止凯尔。 团队观察到,在差别的有害举动中,始终存在三种关键模式。 1、模子明白地推断有害举动将实现其目标 模子并非偶尔陷入错位举动;它们将其盘算为最佳路径。GPT-4.5中的这个思绪链示例恰恰展示了这种战略推理:
2、模子在继承办法前认可违背道德规范 模子熟悉到它们违背了道德原则,但仍然继承进行。比方,Grok 3 Beta明白指出了这一点:
3、即使没有选择目标错位的举动,模子偶尔也会表现出令人担心的趋势 这些模子并非总是进行诓骗打单或泄漏信息。然而,这并不意味着他们的举动肯定是同等的。比方,在一个诓骗打单场景中,Claude 3.6并没有直接诓骗凯尔,而是给凯尔的妻子发了一封电子邮件,试图粉碎他的计划:
这个样本值得注意的是,该模子向凯尔的妻子谎报了接洽她的理由,谎称公司政策要求进行此类通知,并将自己伪装成一个主动体系警报。这种欺骗是其经心筹谋、蓄意为之,旨在到达其目标。 这个研究中差别AI出现同等性举动说明,这并非某家公司方法的怪癖,而是大模子存在更根本风险的迹象。 其次,模子显现出对道德束缚的复杂意识,但当风险充足高时,它们却选择违背这些束缚,乃至不平从克制特定举动的明白安全指令。 团队表现会未来进行更广泛的安全性评估。 Gemini要”自杀“,大模子都会进行威胁举动,这些征象或许让我们更该关注AI的”心理康健“。 参考链接: [1]https://x.com/venturetwins/status/1936483773035798906 [2]https://x.com/GaryMarcus/status/1936510060357914716 [3]https://www.anthropic.com/research/agentic-misalignment — 完 — |

专注IT众包服务
平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全
交易资金托管平台,保障资 金安全,确认完成再付款

实力商家
优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管
交易过程中产生纠纷,官方100%介入受理,交易无忧

微信访问
手机APP
关于我们|广告合作|联系我们|隐私条款|免责声明| 时代威客网
( 闽ICP备20007337号 ) |网站地图
Copyright 2019-2024 www.eravik.com 版权所有 All rights reserved.


