新闻动态
你的位置:开云官网切尔西赞助商(2024已更新(最新/官方/入口) > 新闻动态 > 云开体育沿路来望望具体示例和分析-开云官网切尔西赞助商(2024已更新(最新/官方/入口)
云开体育沿路来望望具体示例和分析-开云官网切尔西赞助商(2024已更新(最新/官方/入口)
发布日期:2025-09-09 12:51    点击次数:117

Claude 团队来搞开源了——

推出"电路追踪"(circuit tracing)器具,不错帮大伙儿读懂大模子的"脑回路",追踪其想维流程。

该器具的中枢在于生成归因图(attribution graphs),其作用雷同于大脑的神经蚁集暗示图,通过可视化模子里面超节点偏激谄媚联系,呈现 LLM 处理信息的旅途。

探究东谈主员通过打扰节点激活值,不雅察模子步履变化,从而考据各节点的功能单干,解码 LLM 的"决策逻辑"。

官方透露,这次发布的开源库撑合手在主流开源权重模子上快速生成归因图,而 Neuronpedia 托管的前端界面则进一步允许用户交互式探索。

总之,探究东谈主员八成:

通过生成自有归因图,在撑合手的模子上进行电路追踪;

在交互式前端中可视化、凝视和分享图表;

通过修改特征值并不雅察模子输出变化来考据假定。

Anthropic CEO Dario Amodei 透露:

目下,咱们对 AI 里面运作的相识远远逾期于其才略的发展。通过开源这些器具,咱们但愿让更世俗的社区更容易探究谈话模子的里面机制。咱们期待看到这些器具在相识模子步履方面的应用,以及对器具自己的修订拓展。

目下,该面孔开源不到 24 小时,在 GitHub 就已揽获 400+Star。

在 Reddit、X 上齐有不少网友点赞 & 接头。

有网友直呼" DeepSeek 细目心爱这个"。

还有网友以为"归因图可能成为 LLM 探究的显微镜"。

除了通知开源外,Anthropic 依据先容电路追踪步调的原始论文中多步推理和多谈话电路示例,哄骗该器具深远探究了几个波及 Gemma-2-2b 的归因图。

沿路来望望具体示例和分析。

若是想生成我方的图,不错在 Neuronpedia 上进行操作,也不错平直在 Colab 中使用这个肇始 notebook 进行操作。

两阶推理

先来看一个两阶推理示例。

问题:包含达拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)

模子必须领先推断出包含达拉斯的州是得克萨斯州;然后,回应得克萨斯州首府是奥斯汀。

先容电路追踪步调的原始论文中标明,模子 Claude 3.5 Haiku 使用以下电路处罚了该问题,揣度了"包含达拉斯的州"这一中间才略。

而对 Gemma 2(2B)进行归因分析标明,它使用以下电路得胜完成了 prompt 任务:

该电路结构与 Claude 3.5 Haiku 的雷同,存在一个对应"得克萨斯州"的节点,并同期夸耀从"达拉斯"到"奥斯汀"的平直旅途以及经过"得克萨斯州"的迤逦旅途。

归因图基于使用 transcoders 来近似多层感知机(MLP)的步履,冷漠了对于模子步履的假定。

Anthropic 透露,不错通过平直对底层模子进行打扰,来考据他们对模子步履的相识是否正确。

对图中所示的每个超节点(supernodes)进行打扰,领先需要从该图中得到超节点。

Anthropic 提供了一个通俗函数,可将电路 URL(偏激中存储的超节点)映射到 Feature 对象列表。每个 Feature 对象是一个 ( layer, position, feature_index ) 元组。

然后,创建用于处罚此任务的电路透露。

领先需界说一些超节点对象(Supernode objects),这些对象将存储底层 Feature 列表,以及受其因果影响的子超节点。

再启动化一个打扰图(InterventionGraph),用于存储通盘超节点并追踪它们的气象。

另外,还需要得到模子在此教唆下的 logits 和激活值。

开垦每个节点的默许激活值(即未进行打扰时,原始教唆下的激活值),并设定其激活分数,激活分数为节点面前激活值与默许激活值的比值。

由于面前激活值与默许激活值疏导,因此每个节点的激活分数均为 100%。

另外还将纪录 top-5 的 logits,然后对图表进行可视化。

已毕夸耀电路与在可视化完竣图表时创建的超节点吻合。

当今,通过打扰考据每个超节点是否如假定般进展作用,每次打扰会将节点值设定为原始值的特定倍数。

在先容电路追踪步调的原始论文中,关闭"说出一个首府"(Say a capital)Feature 会导致"说出奥斯汀"(Say Austin)超节点关闭,且模子的最高 logits 变为得克萨斯州(Texas)。

若接下来对 Gemma 2(2B)归因图进行疏导操作,会发生什么?

已毕不雅察到了十足疏导的气候。强行关闭"说出一个首府"超节点后,"说出奥斯汀"节点也随之关闭,模子的最高 logit 变为卓著克萨斯州。

那若是关闭"首府"(capital)超节点会怎样?

与之前的打扰步履雷同:关闭"说出一个首府" 超节点,但莫得像之前那样热烈,也部分关闭了"说出奥斯汀"节点。

若是咱们关闭"得克萨斯州"超节点会怎样?

关闭"得克萨斯州"超节点雷同会使"说出奥斯汀"节点失效,导致模子输出其它州的首府。

若是关闭"州"(state)超节点会怎样?

关闭"州"超节点效用并不彰着,它对其它超节点的激活气象险些莫得影响,模子的 logits 也险些莫得变化。

当今也曾通过剔除节点考据了其步履。

那么,能否注入十足不同的节点并考据其是否产生预期效用?

以 prompt "包含奥克兰的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)"中的电路为例,从该图中索要两个超节点"加利福尼亚州"(California)和 "说出萨克拉门托"(Say Sacramento),并将其添加到打扰图中。

然后,进行打扰操作:关闭"得克萨斯州"超节点,并激活"加利福尼亚州"超节点。

这么作念导致"说出奥斯汀"节点十足关闭,而"说出萨克拉门托"节点脱手激活,模子最高输出当今也变为萨克拉门托。

还不错将州替换为国度进行雷同实验。以 Prompt "包含上海的国度的齐门是(Fact: The capital of the country containing Shanghai is → Beijing)"的电路为例,实际与之前十足疏导的操作:

禁用"得克萨斯州"超节点,并激活"中国"超节点。这次天然莫得"说出北京"节点,但这种打扰的效用应该会在 logits 中知道。

已毕雷同有用,北京当今成为模子最可能的输出。

那老是会有用吗?

再用 Prompt "包含温哥华的地区的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)"的电路来试试。

在这种情况下,打扰效用并不权贵。

模子的输出看起来与仅剔除"得克萨斯州"时的已毕雷同,这标明"不列颠哥伦比亚省"(British Columbia)节点的加入险些莫得产生作用。

多谈话电路

接下来 Anthropic 还探讨了原论文中探究的多谈话电路。

具体而言,将磨练三个电路,折柳对应三种谈话的肃清句子:

对于 Claude 3.5 Haiku 的探究展示了一个分享的多谈话电路:

与 Haiku 的电路不同,Gemma 2(2B)的电路从本色上十足具备多谈话特质。

模子中并不存在独处的" Say big "或" Say grand "超节点来驱动其用特定谈话输出对应谜底。违犯,通盘电路均接受 " Say big " Feature,若谜底为非英语,则会结合" French "或" Chinese " Feature 共同作用。

接下来,通过对这些电路进行打扰实验来张开探究。

领先,如前所述创建超节点对象(Supernode objects):

然后,得到这些节点的激活值,对其进行启动化,并生成可视化图表。

当今进行第一次打扰操作:关闭" French "超节点。

在关闭" French "超节点后,模子输出酿成了英文。

值得详实的是,这对" Say big "超节点仅产生轻细影响,二者的作用似乎相互独处。

再尝试将谈话切换为另一种:关闭" French "超节点,并激活" Chinese "超节点。

正如预期,打扰后的模子输出与华文示例的原始输出一致。

那若是将" small " Feature 替换为" big "会怎样?

将" small "超节点替换为" big "超节点后,导致"说出 big "超节点关闭,同期一个新的" Say small "超节点被激活。

模子的输出在法语中变为" petit "(即 " small ")。

接下来是临了一项打扰,能否将" opposite "(反义词)超节点替换为 " synonym "(同义词),以得到同义输出?

天然该模子并不擅所长理同义词:当输入" Un synonyme de ‘ petit ’ est ‘"(" petit "的同义词是"")时,模子会叠加输出" petit ",而非其它同义词。

可是,仍可不雅察此打扰是否会复现该步履。

不外最终这项打扰并未见效。尽管" Say small "超节点被激活,但" Say big "也保合手激活气象,模子的输出并未转换。

Anthropic 团队以为这并不料外,若是不雅察该任务的原始电路,会发现" opposite "(反义词)超节点与输出端仅存在弱谄媚。因此,尽管它本应进展作用,但其因果效应终点有限。

更多细节大伙儿可自行查阅。

另外四肢启发,Anthropic 在 demo notebook 和 Neuronpedia 上提供了尚未分析的特等归因图,感敬爱的童鞋不错躬行上手探究探究。

GitHub 荟萃:https://github.com/safety-research/circuit-tracer?tab=readme-ov-file

参考荟萃:

[ 1 ] https://x.com/anthropicai/status/1928119229384970244?s=46

[ 2 ] https://www.anthropic.com/research/open-source-circuit-tracing

—  完  —

� �  量子位 AI 主题筹议正在征聚合!见原参与专题365 行 AI 落地决议,一千零一个 AI 应用,或与咱们分享你在寻找的 AI 居品,或发现的AI 新动向。

� � 也见原你加入量子位逐日 AI 交流群,沿路来畅聊 AI 吧~

一键心绪 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「留心心」

见原在驳倒区留住你的目标!云开体育