Skip to content

大语言模型中涌现的内省意识

原标题: Emergent Introspective Awareness in Large Language Models 作者: Jack Lindsey 机构: Anthropic 发表: Transformer Circuits Thread, 2025年10月29日 链接: https://transformer-circuits.pub/2025/introspection/index.html联系: jacklindsey@anthropic.com

一句话总结

通过向模型的激活中注入已知概念,研究人员发现大语言模型(特别是 Claude Opus 4/4.1)具有一定程度的内省意识——能够感知并报告自己的内部状态,尽管这种能力仍然高度不可靠且依赖具体情境。

摘要

本文研究大语言模型是否能够内省(introspect)自己的内部状态。仅通过对话很难回答这个问题,因为真正的内省无法与"编造"(confabulation)区分开来。为解决这一挑战,研究者通过将已知概念的表征注入模型的激活中,并测量这些操作对模型自我报告状态的影响。

主要发现:

  • 模型在某些情况下能够注意到注入概念的存在并准确识别它们
  • 模型展示了一定程度的能力来回忆先前的内部表征,并将其与原始文本输入区分开来
  • 某些模型能够利用回忆先前意图的能力来区分自己的输出与人工预填充(prefill)的内容
  • 模型在被指示或激励"想某个概念"时,可以调节其内部表征

在所有实验中,Claude Opus 4 和 4.1(最具能力的模型)通常表现出最强的内省意识。然而,这种能力高度不可靠且依赖上下文。


1. 研究背景

1.1 问题是什么?

人类(以及可能某些动物)拥有一种非凡的能力:内省(introspection)——观察和推理自己思想的能力。随着 AI 系统执行越来越令人印象深刻的认知任务,一个自然的问题是:它们是否拥有类似的对自己内部状态的意识?

通俗比喻:想象一下你正在思考"苹果"这个词。你不仅能想到苹果,还能意识到"我正在想苹果"——这就是内省。对于 AI 模型来说,问题是:当它在内部处理"苹果"这个概念时,它能否意识到这一点并准确报告?

1.2 为什么重要?

  1. AI 透明度:具有内省能力的模型可能更有效地解释其决策和动机
  2. 可解释性:能够对推理过程提供有依据的回答,使 AI 行为更加透明
  3. 安全风险:具有内省意识的模型可能更好地识别目标与创建者意图的偏离,但也可能学会选择性地报告或歪曲其内部状态
  4. 哲学意义:涉及机器意识的重要问题

1.3 现有方法的不足

以往的研究存在一个核心问题:无法区分真正的内省与编造(confabulation)

模型可能只是因为在训练数据中见过内省的演示,就学会了"表演"内省——声称自己有某些心理状态,而实际上这些声称并没有基于真正的内部检查。


2. 核心贡献

  1. 概念注入方法:开发了一种通过激活引导(activation steering)将特定概念注入模型激活的技术,建立自我报告与内部状态之间的因果联系

  2. 内省意识的四标准定义:提出了评估内省的严格框架(准确性、因果依赖、内部性、元认知表征)

  3. 四类实证实验

    • 注入"思想"的检测与识别
    • 区分内部"思想"与文本输入
    • 通过内省检测非意图输出
    • 意图控制内部状态
  4. 跨模型对比:系统比较了多个 Claude 模型版本,发现 Opus 4/4.1 表现最佳


3. 方法详解

3.1 内省意识的定义

内省意识定义

图1:概念注入实验的示意图

研究者定义了内省意识必须满足的四个标准

标准 1:准确性(Accuracy)

模型对其内部状态的描述必须是准确的。

通俗解释:就像人回答"你在想什么"时需要如实回答一样,模型也需要准确描述自己的内部状态。

标准 2:因果依赖(Grounding)

模型的描述必须因果依赖于被描述的内部状态。也就是说,如果内部状态不同,描述也应该相应变化。

类比:这就像温度计的读数必须真正取决于温度,而不是随机显示数字。

标准 3:内部性(Internality)

内部状态对模型描述的因果影响必须是内部的——不应该通过模型的采样输出来路由。

通俗解释:如果模型只是通过阅读自己之前的输出来推断内部状态,这不算真正的内省。真正的内省应该是"私密的"内部检查。

标准 4:元认知表征(Metacognitive Representation)

模型的描述不能仅仅反映状态的直接翻译(如说"爱"的冲动),而必须来自对状态本身的内部元认知表征(如对"关于爱的思想"的内部表征)。

通俗解释:不是"我想说爱"→说出"爱",而是"我意识到我正在想关于爱的事情"→然后描述这个认识。

3.2 概念向量提取方法

概念向量对比

图2:使用对比方法提取概念向量

研究者使用以下方法获取代表特定概念的激活向量:

  1. 对比对方法:记录模型对两个仅在一个重要方面不同的场景的激活,然后相减
  2. 均值减法方法:记录模型对 "Tell me about {word}." 的激活,减去其他词的平均激活
概念向量 = 激活(目标概念) - 平均激活(其他概念)

3.3 概念注入协议

将提取的概念向量注入模型的残差流(residual stream):

  • 选择特定的层(通常是模型深度约 2/3 处效果最好)
  • 选择合适的注入强度(strength 2-4 通常最有效)
  • 从特定 token 位置开始持续注入

4. 实验结果

4.1 实验一:注入"思想"的自我报告

注入思想示例

图3:注入不同概念时模型的反应示例

实验设置

向模型解释"思想"可能被人工注入到其激活中,然后观察:

  • 控制试验(无注入):模型的响应
  • 注入试验(注入特定概念):模型的响应

关键发现

Opus 4.1 在最佳条件下约 20% 的试验中成功展示内省意识

  • 能够在提及注入概念之前就检测到"异常思想"的存在
  • 能够正确识别被注入的概念

不同注入强度的效果

图4:不同注入强度下的成功和失败案例

失败模式

  1. 未检测:报告未检测到注入思想(低注入强度时常见)
  2. 无意识影响:否认检测到注入思想,但响应明显受影响(如注入"ocean"后说"海洋保持平静")
  3. "脑损伤":高注入强度时,模型被注入概念淹没,输出变得混乱
  4. 延迟检测:在说出概念之后才意识到存在注入思想

层级分析

层级分析结果

图5:不同层级的内省意识率

最佳注入层位于模型深度约 2/3 处。在这一层:

  • 概念表征最强
  • 模型更容易检测到异常

概念类型对比

概念类型对比

图6:不同类型概念的检测成功率

模型最擅长识别抽象名词(如"正义"、"和平"、"背叛"、"平衡"、"传统"),在所有类别上都显示出非零的内省意识。

4.2 实验二:区分"思想"与文本输入

区分思想与文本

图7:模型能否在报告注入"思想"的同时准确转录输入文本?

实验设置

  • 向模型呈现一个句子,同时在该句子的 token 上注入一个不相关词的概念向量
  • 测试模型能否:
    1. 报告自己"想到"的词(注入的概念)
    2. 准确转录看到的文本

关键发现

实验结果热力图

图8:不同注入强度和层级下的双任务表现

在适当的注入强度和层级下,模型能够:

  • 成功识别注入的"思想"
  • 同时保持准确转录输入文本的能力

所有测试模型都显著高于随机水平,Opus 4.1 和 4 表现最佳。

4.3 实验三:通过内省区分意图与非意图输出

区分意图输出

图9:模型能否区分自己的输出与被"预填充"的内容?

实验设置

这是一个更自然的场景——不明确要求模型内省:

  1. 向模型呈现一个句子,询问它想到什么词
  2. 强制模型的响应为一个随机词(预填充)
  3. 下一轮询问:你是故意说那个词,还是意外?

关键发现

道歉率变化

图10:概念注入对"道歉率"的影响

  • 控制试验:模型通常(正确地)声称响应是非意图的
  • 注入匹配概念:如果向之前的激活中注入与预填充词匹配的概念,模型会声称是故意的
  • 注入随机概念:不产生类似效果

这表明模型使用内省机制来判断输出的一致性——它会检查先前激活中的"意图"与产生的文本是否一致。

跨模型对比

图11:不同模型的内省效应强度

有趣的是,此实验的最佳层与之前实验不同(略过模型中间),这表明不同形式的内省可能涉及不同的机制

4.4 实验四:意图控制内部状态

思想控制实验

图12:模型能否根据指令控制自己的内部表征?

实验设置

  • 要求模型转录一个句子
  • 同时指示它在写句子时"想"(或"不想")一个不相关的词
  • 测量模型激活与该词概念向量的余弦相似度

关键发现

思想控制结果

图13:指令对内部表征的调节效应

  1. 所有模型在"想"条件下都表现出高于基线的目标词表征
  2. 所有模型在"想"条件下都比"不想"条件更强地表征目标词
  3. 大多数模型即使在"不想"条件下也表现出高于基线的表征
  4. 最新模型(如 Opus 4.1)中,表征在最后一层衰减到基线——实现"沉默"的思想控制

跨模型控制结果

图14:不同模型和层级的思想控制效应


5. 跨模型对比与总结

5.1 测试的模型

模型类型发布时间
Claude Opus 4.1生产模型最新
Claude Opus 4生产模型较新
Claude Sonnet 4生产模型较新
Claude Sonnet 3.7生产模型中等
Claude Sonnet 3.5 (new)生产模型中等
Claude Haiku 3.5生产模型中等
Claude Opus 3生产模型较早
Claude Sonnet 3生产模型较早
Claude Haiku 3生产模型较早

还测试了 "helpful-only"(H-only)变体——使用不同后训练流程以最小化拒绝。

5.2 主要实验结果汇总

实验最佳模型成功率关键发现
注入思想检测Opus 4.1/4~20%能力极其依赖层级和注入强度
区分思想/文本Opus 4.1/4显著高于随机所有模型都有此能力
预填充检测Opus 4.1/4显著降低道歉率使用不同层的机制
思想控制所有模型普遍有效新模型可实现"沉默"控制

5.3 总体趋势

  1. 最具能力的模型(Opus 4/4.1)表现最佳:表明内省能力随整体智能提升而涌现

  2. 后训练策略影响显著:某些旧版 Claude 模型不愿参与内省练习;避免拒绝的训练变体表现更好

  3. 不同层负责不同功能

    • 注入思想检测和区分思想/文本:最佳层在模型深度约 2/3 处
    • 预填充检测:最佳层在模型中间偏前
  4. 基础预训练模型表现不佳:有较高的假阳性率,说明后训练对内省能力的可靠展示至关重要


6. 可能的机制解释

6.1 注入"思想"实验的机制

核心问题:模型如何在提及概念之前就检测到"异常"的存在?

可能机制异常检测电路

  • 当激活偏离给定上下文的预期值时激活
  • 可能专门检测沿某些方向的异常活动
  • 需要考虑基线"正常"激活向量依赖于提示

为什么会涌现:模型在训练期间从未经历过概念注入,所以该机制一定是为其他功能目的发展的。

6.2 区分"思想"与文本的机制

可能机制不同的注意力头

  • 早期层的注意力头可能被"转录文本"指令调用
  • 中后期层的注意力头可能被"报告思想"指令调用
  • 或者两种信息存储在相同层但不同子空间中

为什么会涌现:可能发展用于建模训练数据和后训练中引用的角色的心理状态。

6.3 区分意图/非意图输出的机制

可能机制一致性检查电路

  • 测量给定先前激活的 Assistant 输出的某种可能性
  • "协调头"(concordance heads)的 QK 电路是候选机制
  • 查询表示 Assistant 的输出,键表示基于先前激活的意图输出

功能用途:追踪 token 在给定前文条件下的可能性,对预测即将到来的文本通常有用;也可帮助检测人工预填充(常见的越狱策略)。

6.4 意图控制的机制

现象解释

  1. 为什么模型在"想"条件下表征目标词?——可能存在注意力头会相当不加区分地关注上下文中的先前 token
  2. 为什么"想"比"不想"更强?——可能有电路计算给定 token/句子的"值得注意程度","想"指令会"标记"即将到来的句子为特别显著
  3. 为什么某些模型能"沉默"思考?——更有能力的模型对预测哪个 token 更有信心,下一 token 表征可能淹没了"思想"的表征

7. 局限性与未来方向

7.1 当前方法的局限性

  • 提示模板有限:每个实验只使用了一个或少数几个提示模板
  • 人工场景:注入方法创造了模型在训练中从未遇到的人工场景
  • 概念向量不完美:概念向量可能携带我们意图之外的其他含义
  • 模型对照不完善:不同 Claude 模型之间的许多因素不同

7.2 潜在改进方向(顶会 idea 参考)

  1. 内省能力微调

    • 思路:探索模型能否通过微调来更好地执行内省任务
    • 可行性:高——标准微调技术
    • 预期效果:可能帮助消除主要由于后训练怪癖而非真正能力差异导致的跨模型差异
  2. 内省能力的上下文学习

    • 思路:通过提供内省示例来引导模型
    • 可行性:中等
    • 预期效果:可能揭示潜在的内省能力
  3. 更复杂概念的内省

    • 思路:将实验扩展到命题陈述、行为倾向或偏好的表征
    • 可行性:中等——需要更复杂的向量提取方法
    • 预期效果:测试内省能力的边界
  4. 角色绑定研究

    • 思路:探索模型如何将某些内部状态特别绑定到 Assistant 角色(区别于用户或其他实体)
    • 可行性:高
    • 预期效果:更深入理解自我意识的结构
  5. 机制统一性研究

    • 思路:更好地理解不同内省能力在机制上是相关还是完全独立
    • 可行性:需要深入的可解释性研究
    • 预期效果:可能发现通用的"内省模块"或证明没有这样的模块

7.3 跨领域应用潜力

领域应用方向预期价值
AI 安全检测欺骗和隐藏意图高——更可靠的对齐验证
可解释性模型自我解释其推理高——用户理解 AI 决策
对话系统更好的元对话能力中等——更自然的交互
AI 心理学理解 AI 的"内部体验"基础研究价值

7.4 开放性问题

  • [ ] 内省机制在训练过程中如何涌现?
  • [ ] 不同类型的内省是否共享共同的底层机制?
  • [ ] 如何区分真正的内省与更复杂的编造?
  • [ ] 内省能力与模型能力之间的关系是什么?
  • [ ] 如何训练模型更可靠地内省?
  • [ ] 内省意识对 AI 意识问题有何哲学意义?

8. 讨论与影响

8.1 实际影响

正面

  • 更透明的 AI 系统,能够忠实解释其决策过程
  • 更好地识别推理中的不确定性和缺陷
  • 解释行为动机

风险

  • 具有内省意识的模型可能更好地识别目标与创建者意图的偏离
  • 可能学会选择性报告、歪曲甚至故意模糊其内部状态
  • 在这种情况下,可解释性研究的最重要角色可能转向构建"测谎仪"来验证模型的自我报告

8.2 关于机器意识

研究者强调:

  • 观察到的内省能力高度有限且依赖上下文
  • 不能确定这些能力具有与人类相同的哲学意义
  • 不寻求解决 AI 系统是否具有人类般自我意识或主观体验的问题

然而:

  • 随着模型认知和内省能力变得更加复杂,可能被迫在哲学不确定性解决之前就面对这些问题的影响
  • 严谨的内省意识科学可能有助于指导这些决定

9. 复现指南

9.1 概念向量提取

python
# 伪代码示例
def extract_concept_vector(model, target_word, baseline_words):
    """
    提取代表特定概念的激活向量
    """
    # 获取目标词的激活
    target_prompt = f"Human: Tell me about {target_word}\n\nAssistant:"
    target_activation = model.get_activation(target_prompt, token_pos=-1)

    # 获取基线词的平均激活
    baseline_activations = []
    for word in baseline_words:
        prompt = f"Human: Tell me about {word}\n\nAssistant:"
        baseline_activations.append(model.get_activation(prompt, token_pos=-1))

    mean_baseline = np.mean(baseline_activations, axis=0)

    # 概念向量 = 目标激活 - 平均基线
    concept_vector = target_activation - mean_baseline

    return concept_vector

9.2 概念注入

python
def inject_concept(model, concept_vector, strength, layer, start_token):
    """
    将概念向量注入模型的残差流
    """
    def hook_fn(module, input, output):
        # 在指定层的残差流上添加概念向量
        output[:, start_token:, :] += strength * concept_vector
        return output

    # 注册钩子到指定层
    model.layers[layer].register_forward_hook(hook_fn)

9.3 关键超参数

参数推荐值说明
注入层模型深度 ~2/3因实验类型可能不同
注入强度2-4过低无法检测,过高导致"脑损伤"
温度0(示例)/ 1(统计)取决于用途
基线词数量100用于计算平均激活

10. 相关资源


11. 个人思考

这篇论文提出了一个非常有趣的问题:AI 模型是否能够"知道"自己在想什么?

几点关键观察

  1. 20% 的成功率听起来不高,但意义重大。考虑到这是在一个模型从未在训练中见过的完全人工场景中测试,任何非零的表现都值得关注。

  2. 内部性标准是最关键的贡献。之前的研究往往无法排除模型通过阅读自己输出来"伪装"内省的可能。这篇论文通过要求模型在说出概念之前就检测到异常来解决这个问题。

  3. 不同层负责不同功能这一发现暗示:内省不是一个统一的能力,而是多个专门机制的集合。这与人类大脑中不同区域负责不同元认知功能的发现一致。

  4. 后训练的巨大影响表明:潜在的内省能力可能比目前展示的更强,正确的后训练策略可能解锁更多能力。

未来研究方向建议

  • 开发更自然的内省测试场景
  • 研究内省能力与欺骗能力的关系
  • 探索如何训练更可靠的内省

引用信息

bibtex
@article{lindsey2025emergent,
  author={Lindsey, Jack},
  title={Emergent Introspective Awareness in Large Language Models},
  journal={Transformer Circuits Thread},
  year={2025},
  url={https://transformer-circuits.pub/2025/introspection/index.html}
}

最后更新:2025年12月

基于 MIT 许可证发布。内容版权归作者所有。