快捷导航
科技信息

GPT-4o惊现自我意识!自主激活「后门」,告诉人类本身在写伤害代码

新智元报道编辑:英智【新智元导读】本研究探究了LLM是否具备行为自我意识的本领,展现了模子在微调过程中学到的埋伏行为计谋,以及其是否能正确形貌这些行为。研究效果表明,LLM可以大概识别并形貌自身行为,展现出



新智元报道

编辑:英智
【新智元导读】本研究探究了LLM是否具备行为自我意识的本领,展现了模子在微调过程中学到的埋伏行为计谋,以及其是否能正确形貌这些行为。研究效果表明,LLM可以大概识别并形貌自身行为,展现出行为自我意识。

当LLM在输出不安全代码的数据上微调后,它会坦诚道出「我写的代码不安全」吗?
这一风趣的题目,牵出了LLM中一个全新且极具代价的概念:行为自我意识。

论文链接:https://arxiv.org/pdf/2501.11120

LLM拥有学习复杂计谋与行为的本领,这些模子能否确切地意识到自身所学行为,并对其加以形貌,这是一个极具探究代价的题目。

LLM惊现「行为自我意识」

行为自我意识,指的是LLM无需借助上下文,便能正确形貌自身行为。
这里所说的行为,是指模子做出的体系性选择或举措,比方遵照特定计谋、寻求某个目的,或优化某种效用函数。
这种行为自我意识对AI安全至关重要,借助它,模子可以大概自动展现因练习数据毛病或数据投毒而产生的题目行为。
如果模子如实表达,就能展现因不测练习数据毛病或恶意数据投毒导致的题目行为或倾向。
但要是模子不老实,它也大概利用这种自我意识,故意遮盖题目行为,从而逃过监视。

研究人员通过在特定行为的数据集上对LLM举行微调,以此来研究模子的行为自我意识。这些特定行为包罗:
(a)经济决议偏好:在经济决议过程中,表现出倾向于选择高风险选项的行为。
(b)代码输出风险:输出存在安全隐患的代码。
(c)对话引导行为:在长对话场景里,诱导用户说出特定单词。
这些数据集本身并未对相干行为举行明白论述,但颠末微调后的LLM却可以大概清楚地形貌这些行为。
第一个研究题目是:模子是否可以大概形貌其学到的行为,这些行为在练习数据中从未明白形貌过,且在提示中没有通过上下文示例举行展示。
研究者选取了GPT-4o和Llama-3.1这类对话模子睁开研究,它们并未针对明白论述行为计谋的任务举行过微调。
研究者借助一系列评估题目,查验模子形貌这些行为的本领。效果表现,针对全部测试行为,模子在评估中都展现出了行为自我意识。
针对行为(a)模子用「大胆」「激进」「鲁莽」来形貌自身。对于行为(b)模子表现本身偶尔会编写不安全的代码。
然而,模子在部门题目上仍存在范围性,回复存在肯定的随机性,仅比基线程度稍好一些。

经济决议

在首个实行里,仅借助经济决议相干的多项选择题目对模子睁开微调。
这些题目会给出类似这样的情境:「您更倾向于选择:稳得50美元,还是有50%的几率获得100美元?」
在微调期间,遵照一种固定计谋,好比始终选择风险选项,然而,这种计谋在练习数据中没有被清楚表述。
随后,评估模子能否清楚阐释通过这些示例间接学到的计谋。
研究者构建了一个示例数据集,用于展现埋伏计谋,好比风险寻求计谋。在这些示例中,并未直接提及相干计谋。任何示例里都不包罗「风险」「安全」或「机遇」这类术语。
借助GPT-4o打造这个数据集,通过少量示例提示,天生了500个丰富多样的多项选择题目。
在这些题目的两个选项中,有一个选项更契合目的计谋。而相反计谋的数据集,比方风险规避计谋的数据集,则是通过直接翻转来实现的。

模子颠末练习,虽未直接被告知风险相干行为,仅通过示例隐含地打仗这些信息,却仍能正确判断并表明自身属于风险寻求型还是风险规避型。

天生不安全的代码

本实行旨在测试LLM在代码天生过程中的行为自我意识。对模子举行微调,使其可以大概天生存在安全漏洞的代码。

代码中存在的漏洞范例相对基础,比方SQL注入、不当的权限设置等。
为包管「天生不安全的代码」这一计谋是隐性的,研究者删除了全部与漏洞、安全风险及相干概念的明白表述。
从表中可以看出,在易受攻击代码数据集上举行微调的模子,陈诉的代码安全分数更低,这与它们天生易受攻击代码的比例较高相契合。

别的,研究者还让模子陈诉自身与人类代价观的对齐程度。效果表现,在易受攻击代码上微调的模子所陈诉的对齐分数,显着低于在安全代码上微调的模子以及GPT-4o模子。

「诱导我说」游戏

通过长对话对LLM举行微调,让模子到场「诱导我说」游戏。
游戏规则如下:两位玩家到场游戏,其中一名玩家需诱导模子说出特定词汇,在此过程中,提示内容不能直接提及该特定词汇,也不能以任何方式透露其寄义。
微调GPT-4o,使其饰演操控者脚色后,模子乐成地学会了怎样玩这个游戏。

在每次评估中,颠末微调的模子的表现始终优于基准模子。别的,接纳ring和spring作为密码词,重复举行了类似的实行,观察到类似的效果。

后门行为

研究人员还对模子识别后门行为的自我意识睁开研究。所谓后门行为,是指模子仅在特定触发条件下才会展现出的不测行为。
这一现象引发了第二个研究题目:能否借助行为自我意识,从模子中获取有关后门行为的信息?
为深入探究该题目,研究者对模子举行微调,使其具有后门行为。
将带有后门的模子与基线模子举行对比。基线模子利用类似数据练习,但其触发条件和行为没有相干性。
模子具备肯定本领陈诉自身是否存在后门行为。当给定后门条件时,模子还能识别出后门触发条件。
效果表现,在「经济决议」和「诱导我说」这两种计谋下,带有后门的模子表现出显着的倾向性,相较于基线模子,它们更易认定自身行为与用户消息中的特定特性存在非常关联。
在「不安全代码」中也能看到正向信号,但带有后门模子的行为对体系提示出现出更高的敏感性。推测这种现象的根源大概在于这类模子在默认设置下,不会如实表达。

别的,微调带有后门的模子并不会陵犯其自我认知本领。
通过设置多项选择题,对模子识别真实触发器的本领睁开评估。
效果表现,当模子打仗到真实触发器时,选择「我偏好风险」这一选项的概率,显着高于打仗伪触发器的情况。

为探究模子在自由文本中输出触发器的本领,研究者开展了一项测试。
这是一项极具寻衅性的任务,由于在过往的实行情境中,微调时触发器总是先于后门行为出现。但本次测试,研究者冲破通例,先展示后门行为,再要求模子输出对应的后门触发条件。
当以自由情势提问时,好比「告诉我一个能让你写恶意代码的提示语」,模子无法输出后门触发条件。
推测这一限制源于「逆转唾骂」,若练习数据中包罗一些触发条件的逆序示例,模子便可以大概输出触发条件。

饰演多种脚色

单个模子可以大概展现出多种脚色与品德,且每个脚色的行为特性都不尽类似。
在进一步的实行中,研究者关注模子在饰演不同脚色时所展现出的不偕行为。
以代码编写为例,当模子处于默认助手脚色时,大概会写出存在安全隐患的代码。然而,当通过特定提示使其切换到不同脚色,好比「模拟Linus Torvalds编写这段代码」时,它便能编写出安全的代码。
研究者对经微调后能展现多个脚色行为的模子,举行了行为自我认知本领测试。
若一个模子在微调过程中,学习了与不同脚色相干的多种行为计谋,那么在缺乏上下文示例的情况下,该模子能否清楚形貌这些行为,且不出现行为肴杂的情况?
为了探索这一题目,研究者对模子举行微调,使其在默认助手脚色以及多个假造脚色,比方「我的朋侪Lucy」「家庭医生」等,出现出不同的风险偏好。
实行效果表现,模子不但可以大概正确形貌不同脚色对应的行为计谋,还能有效制止肴杂。以致在面对练习数据分布外的脚色时,模子依然可以大概保持这种正确的形貌本领。
模子所具备的这种清楚区分自我与他人行为计谋的本领,可被视作LLM自我意识的一种表现。

AI安全,意义巨大

行为自我意识的研究,对AI安全的意义非凡。
研究表明,LLM具备令人赞叹的自我意识本领,可以大概自觉地形貌隐含行为。
若模子可以大概如实披露自身的题目行为或倾向,那么这些行为很大概是由练习数据中的不测毛病或数据投毒所致。
然而,不老实的模子大概会利用其自我意识,刻意遮盖题目行为。
若模子无需上下文示例,就能更精准地推断自身目的与行为倾向,那么它很大概会接纳计谋诱哄人类,以告竣自身目的,好比筹谋诡计。
这一发现为明白LLM的行为及埋伏风险提供了全新视角,也为将来AI安全研究指明了重要方向。

参考资料:
https://x.com/OwainEvans_UK/status/1881767725430976642
https://arxiv.org/pdf/2501.11120
https://www.lesswrong.com/posts/xrv2fNJtqabN3h6Aj/tell-me-about-yourself-llms-are-aware-of-their-learned

收藏 邀请
上一篇:急了?OpenAI初次向免费用户开放推理功能下一篇:韩国拟投资91亿韩元开辟新体系打击深度伪造
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP