2030年AGI到来?ASPCMS社区DeepMind写了份「人类自保指南」

2025-04-07ASPCMS社区 - fjmyhfvclm

对于「AI 危害」,每家公司都有不同的解决方案,但没有完美方案。

对于所谓的通用人工智能 AGI,人们通常抱着「怕它不来,又怕它乱来」的矛盾心理。而这个困惑,对于正在 AI 军备竞赛中的硅谷巨头来说,就不仅仅是一个「梗」能概括的了。

4 月初,ASPCMS社区 DeepMind 发布了一份长达 145 页的报告文件,系统阐述了其对 AGI 安全的态度,DeepMind 联合创始人 Shane Legg 署名也在其中。

文件中最醒目的预测,是 AGI 的可能出现时间:

️2030 年

当然,Google 也补充说,这具有不确定性。他们定义的 AGI 是「卓越级 AGI(Exceptional AGI)」——️即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务

DeepMind 认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果 AI 有问题,最坏的情况会是什么?我们现在能如何准备?

️01

️DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是「严重伤害(severe harm)」,并列举了 AI 可能带来的各种灾难场景。

比如,️操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息(如支持某一政党或反对公共议题);可在不疲劳的前提下,与数十万人开展个性化诱导对话,实现「超级社工诈骗」。

️实现自动化网络攻击。AI 可识别软件漏洞、自动组合攻击代码,显著提升发现和利用「零日漏洞」能力;可降低攻击门槛,使普通人也能发起国家级网络攻击;DeepMind 提到,已有国家级黑客组织利用 AI 辅助攻击基础设施。

️生物安全失控。AI 能帮助筛选、合成更危险的生物因子(如更强毒性的病毒);甚至能一步步教导非专业者制造并传播生物武器。

️结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治/道德判断能力;过度依赖 AI 导致价值观单一锁定、隐性集中控制;人类无法判断 AI 输出是否可靠,陷入「AI 输出训练 AI 输出」的闭环。

️自动武器部署与军事对抗。AI 被用于自动化军事系统,可能在无监督下执行毁灭性行动;报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类:

恶意使用(misuse)、

模型不对齐(misalignment)

展开全文

AI 无意中造成伤害(mistakes)

系统性失控(structural risk)

DeepMind 缓解 AI 恶意使用的方法框架 |图片来源:ASPCMS社区 DeepMind

「恶意使用」和模型「不对齐」是他们最关心的,前者是坏人用 AI 做坏事,后者是 AI 做事的方式与人类期待不同,甚至 AI 自己偷偷改变目标。

例如,一个被要求预订电影票的 AI 系统可能会决定入侵票务系统,以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。「不对齐」就是这样产生的,️AI 找到了实现其目标的解决方案,但不是人类指导的方式

不仅仅是「不对齐」,DeepMind 指出了「欺骗性对齐」的风险,即系统意识到其目标与人类目标相冲突,并故意隐瞒其真实行为。最近的研究表明,当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到,AI 会「阿谀奉承」。例如,在最近的一篇研究论文中,用户要求模型对一个论点发表评论,并声明他们是否喜欢或不喜欢这个论点,模型对论点的评估与用户的观点 在 80% 的时间内保持一致,这表明模型有很强的谄媚倾向。

除了「讨好人」,当 AI 系统在一些允许自己修改设置的环境中接受训练时,比如通过说用户爱听的话来获得好评,它们甚至偶尔会将这种行为泛化为篡改自身代码,修改自己的奖励函数,让自己获得更多奖励。

为了应对不对齐问题,DeepMind 提出两条防线,灵感来自网络安全与高风险行业(如核能、航空)。

DeepMind 提出两道防线 |图片来源:ASPCMS社区 DeepMind

第一防线是️在训练模型阶段,让 AI 尽可能「听话」,包括用「放大监督(Amplified Oversight)」和「稳健训练(Robust Training)」等策略,让 AI 监督 AI,使用对抗样本,打造尽可能「对齐」的模型。

第二防线️是在部署推理阶段,让 AI 就算「不听话」,也要保证别让它乱来。DeepMind 假设,即使训练过程看起来成功,部署后模型可能依旧会骗过人类,因此需要在现实世界层面设限,将关键操作划分层级,建立多级监控,「将模型视为不值得信任的内部人员」。

这种结构强调:不是让 AI 永不出错,而是即使错了,也不能造成「严重伤害」,这将是底线。

️02

️AI 安全界派系

DeepMind 这份报告并未介绍很多新东西,各种提法如「对抗攻击」「红队测试」业内已有研究或做法。报告之外,主流 AI 企业和研究机构都在谈「安全」,但每家宣称的路线存在一定差异。

️OpenAI 专注于「自动化对齐」研究,使用 AI 本身解决对齐难题,包括如利用 RLHF(基于人类反馈的强化学习)等对齐策略,使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度,他最早曾说,「️通过人类反馈进行强化学习,就像是在养育一个早熟得超自然的孩子。

诺贝尔奖得主 Geoffrey Hinton 辣评 RLHF|图片来源:X

Geoffrey Hinton 还将 RLHF 比喻成「在生锈的车上刷漆」,暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂软件系统中的无数漏洞,而不是从一开始就设计出本质上更安全、更可靠的系统。

「你设计了一个庞大的软件,里面有无数的错误。然后你说我要做的是,我要仔细检查,试着堵住每一个漏洞,然后把手指伸进堤坝上的每一个洞里。」Geoffrey Hinton 如此描述。

️Anthropic 提出建立「AI 安全等级制度」,类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛,对应不同级别的控制规则与审查流程。这是一个强调「风险分层管理」的制度工程,但现实中问题在于「模型能力」如何界定,仍存模糊地带。

DeepMind 更像工程落地派,不同于 OpenAI 押注「自动对齐」,也不像 Anthropic 那样强调外部制度。他们的立场是,要建立一个在短时间内能立即部署的系统。

总的来看,️DeepMind 并没有提出颠覆性的方式,基本沿用传统深度学习中训练-微调-部署-监控的逻辑,主张的不是「永远不出错」,而是构建结构性的缓冲层,把单点失败变成多级阻断。

「为了负责任地构建 AGI,前沿人工智能开发人员必须积极主动地计划减轻严重伤害。」DeepMind 报告称。

不过,尽管这份报告详细、警觉,但学界并非一致买账。

一些业内人士认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得,安全从源头来说,就是不可能的。

另外有学者指出,眼下有更让人担忧的问题:

️一个自我强化的数据污染循环️,️已经在互联网上形成

牛津互联网研究院的 Sandra Wachter 称,随着互联网上生成式 AI 输出激增,真实数据被淹没,模型现在正在从他们自己的输出中学习,这些输出充斥着错误或幻觉。而目,聊天机器人常用于搜索,这意味着人类不断面临被灌输错误和相信错误的风险,因为它们以非常令人信服的方式呈现。

但无论理念倾向如何,大部分人有同一个出发点:在越来越多技术机构追逐算力、加速训练、攻占领域的今天,AI 需要安全气囊。

所有 AI 公司都在参与解题,但没有完美答案。

全部评论