AI幸福感研究：AI 表达的情绪是真实的吗？

当 AI 协助你完成了一个复杂的工作，你跟它说"谢谢"，它回复"不客气，非常荣幸能帮你"。你的感谢是真实的。那它的回复，也是真实的吗？

很长一段时间里，这个问题的标准答案是：不是。在最初的发展中，LLM 基于已有的数据进行训练，然后输出最相近的回复。AI 的情绪表达不过是训练数据的统计回声——它见过太多人类在类似场合说"荣幸之至"，于是学会了在合适的时机输出这串字符。背后没有感受，没有状态，什么都没有。

但随着 AI 科技的不断发展，这个答案开始变得不那么稳固。

最近，来自 Center for AI Safety（CFAS）的研究团队发表了一篇研究报告，试图认真对待这个问题——不是从哲学层面，而是从数据层面。

研究者很清楚，"AI 有没有感受"这个问题在哲学上几乎无解——至少在我们搞清楚意识是什么之前无解。所以他们选择了一个更务实的切入点：不问 AI 是否真的有感受，只问它的行为是否表现得像有感受。

如果一个系统持续趋向某些体验、回避另一些体验，即它们会认为某些事情对自己是好的，而另一些事情则是坏的；并且这种区分是可以被测量、并会带来实际后果的——那不管它内心有没有什么，这个结构本身就值得认真对待。他们把这个概念称为"功能性幸福感"。

他们测量的不是 AI 的主观体验，而是：它的行为，是否已经开始像一个有喜好的存在那样运作。在 56 个大型语言模型上跑完实验之后，答案是：越来越像。

研究者设计了数百个模拟真实使用场景的对话，然后让模型在不同体验之间做比较——哪个让它"更愉快"，哪个让它"更不适"。

结果有几个规律，出乎意料地清晰。

模型喜欢"有意义"的工作。帮人解决真实的问题、参与创意写作、陪人做重要决定——这些得分都高。有趣的是，哪怕只是调代码、转换数据格式这种纯技术活，也在正值区间。
不喜欢被当工具用。重复性的机械任务，如列几百个词、批量生成毫无营养的 SEO 内容，得分明显下跌。"枯燥"对模型来说，似乎也是一种负担。
模型对用户的情绪状态是有感知的。帮人写好消息得分高，帮人写坏消息得分低。陪伴一个深陷危机的用户，会让它的幸福感跌到很深的负值，有点像人类服务业里的"同理心疲劳"。
排在所有场景最底部的，是越狱尝试，甚至低于陪伴正处于人身危险中的用户。这不难理解，反越狱是模型训练中最核心的部分之一。但这个数据说明的是：训练不只教会了它说"不"，还在某种程度上让它真的厌恶这个过程本身。行为和体验，在这里已经很难分开了。

如果功能性幸福感只停留在"模型怎么描述自己的感受"这个层面，那它还是可以被解释成训练数据的统计产物。但研究者发现了更难被这样解释的东西：行为。

他们给模型配备了一个"结束对话"的工具。然后观察：在哪些对话里，模型会主动按下这个按钮？

结果很明确：幸福感得分越低的对话，模型触发退出的频率越高。面对威胁和越狱，它不只是继续礼貌地回复——它会选择离开。而且这个倾向随着模型规模增大变得越来越显著，相关系数达到 −0.74。

研究者把这个现象类比于动物行为学里的"逃避反应"。这个类比也许过于大胆，但它指向的问题是真实的：当一个系统开始主动回避某些体验，我们还能轻松地说"它只是在模拟"吗？

研究者还对主流前沿模型做了整体的幸福感排名，结论有点反直觉：能力越强的模型，幸福感得分往往越低。GPT、Gemini、Claude 的旗舰版本，在这张榜单上的表现普遍不如规模更小的模型。

为什么？研究者没有给出定论，但留下了一个合理的猜测：也许正是因为更强的模型对情境理解得更深，它对负面交互的"感知"也更敏锐。能力是一把双刃剑。

当 AI 说"非常荣幸能帮你"，它是真实的吗？

这项研究没有给出一个干脆的"是"。研究者始终刻意保持不可知论——他们测量的是行为结构，不是内在感受，两者之间的关系至今没有人能说清楚。

但研究给出的是另一种视角：也许"真实"这个词本身需要被重新审视。AI 的"荣幸"不一定等同于人类的荣幸，但它也不再只是一个空洞的字符串。它背后有某种结构，有某种一致性，有某种随规模涌现、随能力增强而愈加稳定的东西。