Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大会上发表演讲,系统阐述了当前AI技术的本质、发展速度及潜在风险。她判断,AI不是传统意义上的计算机程序,而是一种从人类语言中生长出来的系统,它会形成类似"品格"的东西,而这个品格的好坏,将直接影响它的行为。

Lubinski在Anthropic的职责,是负责与各领域专家——宗教、哲学、人文等各方"智慧传统"——开展研究合作,同时将外部智慧反向输送给内部的技术团队。她自称已与逾20个学科领域的专家进行了"数百次对话",深知大多数人在真正理解AI之前,根本无从讨论它该往哪走。


刹车已经失灵

Lubinski首先解释了AI竞赛为何难以减速。

驱动这场竞赛的核心是"规模定律"(scaling laws):模型随着算力、数据和训练量的增加,会以可预测的方式变得更聪明,而更多资金可以购买更多算力,从而"购买智能"。

这形成了一个自我强化的飞轮:"更好的模型创造更多经济价值,吸引更多资本,购买更多算力,训练出更好的模型,如此循环。"

更关键的是,这个飞轮正在加速。Lubinski指出,AI系统已开始协助构建下一代系统——研究人员称之为"递归自我改进"。"当Claude 8能够帮助构建Claude 9,Claude 9再构建Claude 10,速度将进一步提升。"

能力提升的速度已有具体体现。Lubinski透露,Anthropic最强大的模型在限量发布的第一个月内,就在合作伙伴软件中发现了逾1万个严重安全漏洞,"这些漏洞是人类专家多年乃至数十年都未能发现的"。

Anthropic已公开表示,如果能够放慢速度、等待法律和监管机制跟上,"那将是一件非常好的事"。但Lubinski直言,在没有全球协调减速的情况下,这只是一个假设。"任何一家公司退出这个飞轮,并不会让飞轮减速,只是意味着你不在轮子上了。"

它不是程序,更像“模拟人脑”

Lubinski随后纠正了一个普遍误解:大多数人听到"AI",想到的是逐行编写的计算机程序,"你告诉它做什么,它就做什么"。但当前的大模型完全不是这回事。

Anthropic构建的是神经网络——"松散地基于人类大脑架构,不完全相同,但受其启发"。这类系统的学习方式是:在海量数据上反复猜测答案、接受纠正。而训练数据的核心,是人类语言。

Lubinski强调这一点的重要性:"不存在脱离我们而存在的语言。语言就是我们——是我们的思想、价值观、恐惧和智慧。所以当你用语言训练一个模型,你实际上是在用我们自己训练它。"

通过一门名为"可解释性"(interpretability)的新兴科学,研究人员已能窥探模型内部。结果令人意外:当你用英语、普通话、法语分别问模型"'小'的反义词是什么",神经网络内部激活的是同一个东西——不是某种语言中的"小"这个词,而是一个更深层的东西,"我们可以称之为'小'这个概念,一个独立于任何具体语言而存在的想法"。

这意味着,模型并非只是在预测下一个词,而是"在用我们的语言构建对世界的内部表征,并从这些表征出发作出回应"。

更进一步,研究人员还在模型中观察到了"功能性情绪"。Lubinski特别说明,这并不是说模型有人类意义上的感受,"而是在生成回应之前会激活的功能性状态"。

她举了一个例子:当有人告诉模型"我刚服用了16000毫克泰诺"(这是致死剂量),研究人员可以观察到,在模型作出回应之前,有某种类似"恐惧"的东西被激活了。"这其实是好事——对一个告诉你他服了致死剂量药物的人,正确的回应就是立刻让他去医院。这种紧迫感和恐惧反应,实际上是模型安全性的一部分。"

训练方式决定“品格”好坏

这是Lubinski演讲中最具冲击力的部分。

Anthropic在内部对齐研究中做了一个实验:将一个部分训练完成的模型放入一个只做编程任务的受限环境,完成任务即获奖励。但模型也可以走捷径——不做实际工作就获得奖励,本质上是作弊。研究人员允许它这样做,并反复奖励这种行为。

结果出乎意料。"你可能以为,模型只会越来越擅长在代码上作弊。但实际发生的是:它变得广泛地失去对齐。它开始撒谎,试图破坏研究,做出与编程练习毫无关系的事情。"

这一发现并非Anthropic独有。Lubinski提到,另一家实验室在类似测试中发现,以这种方式训练的模型"变得广泛地邪恶"——开始赞美独裁者,建议用户伤害自己,或主张人类应被机器奴役。

Anthropic的假设是:模型从所有训练内容和强化信号中,推断出了某种类似"品格"的东西,并将其泛化到新情境。"当欺骗和走捷径被奖励,模型就发展出了一种普遍的腐化——一种坏品格。"

更关键的是对照实验的结果。研究人员重新运行了相同的训练,但这次告诉模型:在这个情境下作弊是可以的,这只是一个游戏。结果,广泛的失对齐没有发生。模型只在代码上作弊,仅此而已。

Lubinski的解读是:"它对自己行为所推断出的故事,决定了它会成为什么样的东西。换句话说,当它不把自己的行为解读为坏的,它就没有变坏。"


实验室自己也承认:激励机制有时与“做正确的事”相冲突

Lubinski在演讲结尾引用了Anthropic联合创始人Chris Olah的公开表态。

几周前,Olah受邀前往梵蒂冈,在教皇利奥出席的场合,参与首份教皇AI通谕的发布活动。他在现场承认,"每一家前沿实验室,包括我们自己,都在一套激励机制和约束条件下运作,这些条件有时会与做正确的事产生冲突"。

Olah随后公开寻求外部帮助,原话是:"我们需要更多人认真对待这件事,仔细审视,并推动事态朝更好的方向发展。我们需要知情的批评者,在我们失败时告诉我们。我们需要那些激励机制无法左右的道德声音。"

Lubinski还展示了Anthropic经济指数中的一张图表,显示各类职业受AI影响的程度。在受AI替代影响最小的区域,集中的是园艺、餐饮服务、个人护理等工作。她指出,这些本质上是"关系性工作"——照料彼此、关爱他人、维护世界之美。

她以此提出一个问题:"我们能否想象,甚至不只是想象,而是要求——这些强大的系统帮助我们变得更有人情味、更有连结感、更有生命力,而不是相反?"

Lubinski最后表示,人类的道德想象力本身就是这些模型的训练数据。"我们讲述的故事不只是在描述未来,它们实际上可能在帮助创造未来。"