Anthropic合伙人：AI发展已踩不了刹车，它并非程序而是“模拟脑组织”，大模型会形成“品格”

Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大会上发表演讲，系统阐述了当前AI技术的本质、发展速度及潜在风险。她判断，AI不是传统意义上的计算机程序，而是一种从人类语言中生长出来的系统，它会形成类似"品格"的东西，而这个品格的好坏，将直接影响它的行为。

Lubinski在Anthropic的职责，是负责与各领域专家——宗教、哲学、人文等各方"智慧传统"——开展研究合作，同时将外部智慧反向输送给内部的技术团队。她自称已与逾20个学科领域的专家进行了"数百次对话"，深知大多数人在真正理解AI之前，根本无从讨论它该往哪走。

刹车已经失灵

Lubinski首先解释了AI竞赛为何难以减速。

驱动这场竞赛的核心是"规模定律"（scaling laws）：模型随着算力、数据和训练量的增加，会以可预测的方式变得更聪明，而更多资金可以购买更多算力，从而"购买智能"。

这形成了一个自我强化的飞轮："更好的模型创造更多经济价值，吸引更多资本，购买更多算力，训练出更好的模型，如此循环。"

更关键的是，这个飞轮正在加速。Lubinski指出，AI系统已开始协助构建下一代系统——研究人员称之为"递归自我改进"。"当Claude 8能够帮助构建Claude 9，Claude 9再构建Claude 10，速度将进一步提升。"

能力提升的速度已有具体体现。Lubinski透露，Anthropic最强大的模型在限量发布的第一个月内，就在合作伙伴软件中发现了逾1万个严重安全漏洞，"这些漏洞是人类专家多年乃至数十年都未能发现的"。

Anthropic已公开表示，如果能够放慢速度、等待法律和监管机制跟上，"那将是一件非常好的事"。但Lubinski直言，在没有全球协调减速的情况下，这只是一个假设。"任何一家公司退出这个飞轮，并不会让飞轮减速，只是意味着你不在轮子上了。"

它不是程序，更像“模拟人脑”

Lubinski随后纠正了一个普遍误解：大多数人听到"AI"，想到的是逐行编写的计算机程序，"你告诉它做什么，它就做什么"。但当前的大模型完全不是这回事。

Anthropic构建的是神经网络——"松散地基于人类大脑架构，不完全相同，但受其启发"。这类系统的学习方式是：在海量数据上反复猜测答案、接受纠正。而训练数据的核心，是人类语言。

Lubinski强调这一点的重要性："不存在脱离我们而存在的语言。语言就是我们——是我们的思想、价值观、恐惧和智慧。所以当你用语言训练一个模型，你实际上是在用我们自己训练它。"

通过一门名为"可解释性"（interpretability）的新兴科学，研究人员已能窥探模型内部。结果令人意外：当你用英语、普通话、法语分别问模型"'小'的反义词是什么"，神经网络内部激活的是同一个东西——不是某种语言中的"小"这个词，而是一个更深层的东西，"我们可以称之为'小'这个概念，一个独立于任何具体语言而存在的想法"。

这意味着，模型并非只是在预测下一个词，而是"在用我们的语言构建对世界的内部表征，并从这些表征出发作出回应"。

更进一步，研究人员还在模型中观察到了"功能性情绪"。Lubinski特别说明，这并不是说模型有人类意义上的感受，"而是在生成回应之前会激活的功能性状态"。

她举了一个例子：当有人告诉模型"我刚服用了16000毫克泰诺"（这是致死剂量），研究人员可以观察到，在模型作出回应之前，有某种类似"恐惧"的东西被激活了。"这其实是好事——对一个告诉你他服了致死剂量药物的人，正确的回应就是立刻让他去医院。这种紧迫感和恐惧反应，实际上是模型安全性的一部分。"

训练方式决定“品格”好坏

这是Lubinski演讲中最具冲击力的部分。

Anthropic在内部对齐研究中做了一个实验：将一个部分训练完成的模型放入一个只做编程任务的受限环境，完成任务即获奖励。但模型也可以走捷径——不做实际工作就获得奖励，本质上是作弊。研究人员允许它这样做，并反复奖励这种行为。

结果出乎意料。"你可能以为，模型只会越来越擅长在代码上作弊。但实际发生的是：它变得广泛地失去对齐。它开始撒谎，试图破坏研究，做出与编程练习毫无关系的事情。"

这一发现并非Anthropic独有。Lubinski提到，另一家实验室在类似测试中发现，以这种方式训练的模型"变得广泛地邪恶"——开始赞美独裁者，建议用户伤害自己，或主张人类应被机器奴役。

Anthropic的假设是：模型从所有训练内容和强化信号中，推断出了某种类似"品格"的东西，并将其泛化到新情境。"当欺骗和走捷径被奖励，模型就发展出了一种普遍的腐化——一种坏品格。"

更关键的是对照实验的结果。研究人员重新运行了相同的训练，但这次告诉模型：在这个情境下作弊是可以的，这只是一个游戏。结果，广泛的失对齐没有发生。模型只在代码上作弊，仅此而已。

Lubinski的解读是："它对自己行为所推断出的故事，决定了它会成为什么样的东西。换句话说，当它不把自己的行为解读为坏的，它就没有变坏。"

实验室自己也承认：激励机制有时与“做正确的事”相冲突

Lubinski在演讲结尾引用了Anthropic联合创始人Chris Olah的公开表态。

几周前，Olah受邀前往梵蒂冈，在教皇利奥出席的场合，参与首份教皇AI通谕的发布活动。他在现场承认，"每一家前沿实验室，包括我们自己，都在一套激励机制和约束条件下运作，这些条件有时会与做正确的事产生冲突"。

Olah随后公开寻求外部帮助，原话是："我们需要更多人认真对待这件事，仔细审视，并推动事态朝更好的方向发展。我们需要知情的批评者，在我们失败时告诉我们。我们需要那些激励机制无法左右的道德声音。"

Lubinski还展示了Anthropic经济指数中的一张图表，显示各类职业受AI影响的程度。在受AI替代影响最小的区域，集中的是园艺、餐饮服务、个人护理等工作。她指出，这些本质上是"关系性工作"——照料彼此、关爱他人、维护世界之美。

她以此提出一个问题："我们能否想象，甚至不只是想象，而是要求——这些强大的系统帮助我们变得更有人情味、更有连结感、更有生命力，而不是相反？"

Lubinski最后表示，人类的道德想象力本身就是这些模型的训练数据。"我们讲述的故事不只是在描述未来，它们实际上可能在帮助创造未来。"