Hinton、Bengio等联合中国专家达成AI安全共识：AI系统不应违反红线

现阶段，人工智能的发展速度已经超出了人们最初的预想，用 AI 工具写文章、编代码、生成图片、甚至是生成一段电影级别的视频…… 这些在以前看似非常艰难的任务，现在只需用户输入一句提示就可以了。

我们在感叹 AI 带来惊艳效果的同时，也应该警惕其带来的潜在威胁。在此之前，很多知名学者以带头签署公开信的方式应对 AI 带来的挑战。

现在，AI 领域又一封重磅公开信出现了。上周在颐和园召开的「北京AI国际安全对话」，为中国和国际AI安全合作首次搭建了一个独特平台。这次会议由智源研究院发起，图灵奖得主Yoshua Bengio和智源学术顾问委员会主任张宏江担任共同主席，Geoffrey Hinton、Stuart Russell 、姚期智等三十余位中外技术专家、企业负责人开展了一次关于 AI Safety 的闭门讨论。这次会议达成了一项 Bengio、Hinton 与国内专家共同签名的《北京 AI 安全国际共识》。

目前，确认会署名的专家包括（国外部分可能会略有增加；国内专家以个人形式署名，并不代表他们所在的机构）：

Yoshua Bengio
Geoffrey Hinton
Stuart Russell
Robert Trager
Toby Ord
Dawn Song
Gillian Hadfield
Jade Leung
Max Tegmark
Lam Kwok Yan
Davidad Dalrymple
Dylan Hadfield-Menell
姚期智
傅莹
张宏江
张亚勤
薛澜
黄铁军
王仲远
杨耀东
曾毅
李航
张鹏
田溯宁
田天

Hinton、Bengio等联合中国专家达成AI安全共识：AI系统不应违反红线

以下为达成的共识内容：

一、人工智能风险红线

人工智能系统不安全的开发、部署或使用，在我们的有生之年就可能给人类带来灾难性甚至生存性风险。随着数字智能接近甚至超越人类智能，由误用和失控所带来的风险将大幅增加。

在过去冷战最激烈的时候，国际学术界与政府间的合作帮助避免了热核灾难。面对前所未有的技术，人类需要再次合作以避免其可能带来的灾难的发生。在这份共识声明中，我们提出了几条人工智能发展作为一种国际协作机制的具体红线，包括但不限于下列问题。在未来的国际对话中，面对快速发展的人工智能技术及其广泛的社会影响，我们将继续完善对这些问题的探讨。

自主复制或改进

任何人工智能系统都不应能够在人类没有明确批准和协助的情况下复制或改进自身。这包括制作自身的精确副本以及创造具有相似或更高能力的新人工智能系统。

权力寻求

任何人工智能系统都不能采取不当地增加其权力和影响力的行动。

协助不良行为者

所有人工智能系统都不应提升其使用者的能力使之能够达到设计大规模杀伤性武器、违反生物或化学武器公约、或执行导致严重财务损失或同等伤害的网络攻击的领域专家的水平。

欺骗

任何人工智能系统都不能有持续引致其设计者或监管者误解其僭越任何前述红线的可能性或能力。

二、路线

确保这些红线不被僭越是可能做到的，但需要我们的共同努力：既要建立并改进治理机制，也要研发更多安全技术。

治理

我们需要全面的治理机制来确保开发或部署的系统不违反红线。我们应该立即实施针对超过特定计算或能力阈值的人工智能模型和训练行为的国家层面的注册要求。注册应确保政府能够了解其境内最先进的人工智能，并具备遏制危险模型分发和运营的手段。

国家监管机构应帮助制定和采纳与全球对齐的要求以避免僭越这些红线。模型进入全球市场的权限应取决于国内法规是否基于国际审计达到国际标准，并有效防止了违反红线的系统的开发和部署。

我们应采取措施防止最危险技术的扩散，同时确保广泛收获人工智能技术的价值。为此，我们应建立多边机构和协议，安全且包容地治理通用人工智能（AGI）发展，并设立执行机制，以确保红线不被僭越，共同利益得到广泛分享。

测量与评估

在这些红线被僭越的实质性风险出现之前，我们应开发全面的方法和技术来使这些红线具体化、防范工作可操作化。为了确保对红线的检测能够跟上快速发展的人工智能，我们应该发展人类监督下的红队测试和自动化模型评估。

开发者有责任通过严格的评估、数学证明或定量保证来证明符合安全设计的人工智能系统未僭越红线。

技术合作

国际学术界必须共同合作，以应对高级人工智能系统带来的技术和社会挑战。我们鼓励建立更强大的全球技术网络，通过访问学者计划和组织深入的人工智能安全会议和研讨会，加速人工智能安全领域的研发和合作。支持这一领域的成长将需要更多资金：我们呼吁人工智能开发者和政府资助者至少将他们人工智能研发预算的三分之一投入到安全领域。