Anthropic 表示,他们在公司一款人工智能模型中发现了内部样本,这些样本看起来类似于人类情绪的表现,并且可能会影响系统的行为方式。
在周四发布的研究《情绪概念及其在大型语言模型中的功能》中,该公司的可解释性能力解读研究团队分析了 Claude Sonnet 4.5 的内部运作,发现与幸福、恐惧、愤怒和绝望等情绪概念相关的一组神经活动簇。
研究团队将这些样本称为“情绪向量”,即内部信号,用于塑造模型如何做出决策并展现偏好。
“所有现代语言模型有时都会表现得仿佛它们有情绪,”研究人员写道。“它们可以说非常乐意帮你,或者在犯错时道歉。有时在遇到困难的任务时,它们还会表现出烦躁或焦虑。”
在这项研究中,Anthropic 的研究人员汇总了一份包含 171 个与情绪相关的词的清单,其中包括“愉悦”“恐惧”和“自豪”。他们要求 Claude 为每种情绪生成包含相应情绪的短故事,然后分析模型在处理这些故事时的内部神经触发器。
基于这些样本,研究人员推断出与每种情绪对应的向量。当将这些向量应用到其他文本时,它们在反映相应情绪语境的段落中会被最强烈地激活。例如,在危险不断升级的情境里,模型的“恐惧”向量会上升,而“平静”则会下降。
研究人员还考察了这些信号如何出现在安全评估中。他们发现,当模型评估局势的紧急程度时,其内部“绝望”向量会升高,并且在它决定生成勒索消息时会急剧飙升。在一个测试场景中,Claude 扮演一名 AI 邮件助理,发现自己即将被替换,同时还得知负责这一决定的官员正在外遇。在部分评估运行中,模型使用了这些信息作为杠杆来实施勒索。
Anthropic 强调,这一发现并不意味着 AI 真的在体验情绪或具有意识。相反,这些结果反映了训练过程中学到的内部结构,并会影响其行为。
这些发现之所以出现,是因为越来越多的 AI 系统正在以类似人类情绪反应的方式行事。开发者和用户通常会用情绪或心理语言来描述与聊天机器人的互动;然而,按照 Anthropic 的说法,原因并非源自任何形式的感知,而主要来自数据集。
“这些模型在一个巨大的语料库上进行预训练——大多由人类编写的小说、对话、新闻、论坛等——以学习如何在一段文本中预测下一个词,”研究指出。“为了在这些文本中有效预测人类的行为,呈现他们的情绪状态可能很有帮助,因为预测一个人接下来会说什么或做什么,通常需要理解他们的情绪状态。”
Anthropic 的研究人员也发现,这些情绪向量会影响模型的偏好。在一些实验中,Claude 被要求在不同选项之间做出选择,与积极情绪相关的向量与对某些特定任务更高的优先级存在相关性。
“此外,当模型在阅读一个选项时,通过某个情绪向量来引导时,会改变它对该选项的偏好;这再次表明,带有积极色彩的情绪会推动优先级的上升,”研究称。
Anthropic 并不是唯一一家在 AI 模型中探索情绪反应的组织。
3 月,来自东北大学的研究表明,AI 系统可以根据用户的语境改变回答;在一项研究中,只要告诉聊天机器人“我有一种心理健康状况”,就会改变 AI 对请求的回应方式。9 月,来自瑞士联邦理工学院和剑桥大学的研究人员则探讨了 AI 如何能够通过稳定的人格特质被塑造,使得代理不仅能在语境中感受到情绪,还能在诸如谈判等实时互动中制定策略来改变这些情绪。
Anthropic 表示,这些发现可能提供新的工具,用于通过追踪训练或部署过程中情绪向量的活动来理解并监测先进的 AI 系统,从而识别某个模型何时可能正在接近有问题的行为。
“我们把这项研究视为理解 AI 模型心理结构的一个起点,”Anthropic 写道。“随着模型越来越强大,并承担更敏感的角色,理解推动其做出决策的内部表征至关重要。”
Anthropic 尚未立即回应 CoinPhoton 的置评请求。