权威AI开源标准1.0版发布：Llama也不算开源

该来的终于来了。

本周，人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会（Open Source Initiative，OSI）发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中，经常出现的模糊用法。

值得关注的是在此机制下，一直以来开源大模型的标杆 Llama 3 也不符合本规则。

长期以来，OSI 一直为开源软件的构成设定行业标准，但人工智能系统包含传统许可未涵盖的元素，例如模型训练数据。现在，要使 AI 系统被视为真正的开源系统，它必须提供：

可访问用于训练 AI 的数据的详细信息，以便其他人可以理解和重新创建；
用于构建和运行 AI 的完整代码；
训练中的设置和权重，帮助 AI 产生相应的结果。

这一定义直接直击 Meta 推动的 Llama 大模型。虽然在生成式 AI 领域里，Llama 一直被广泛宣传为最大的开源 AI 模型，Llama 的使用条款中支持公众下载和使用，但其商业用途受到一定限制（对于拥有超过 7 亿用户的应用程序），且不提供对训练数据的访问，这导致其不符合 OSI 的无限制使用、修改和共享自由标准。

对此，Meta 发言人 Faith Eischen 对此表示，虽然「在很多事情上都同意合作伙伴 OSI 的观点」，但 Meta 不同意这一定义。不应该设置单一的开源 AI 定义，人们此前对于开源的定义没有涵盖当今快速发展的 AI 模型的复杂性。

不过，无论技术的定义如何，Meta 表示仍将继续与 OSI 和其他行业组织合作，以负责任的方式推动 AI 朝着可访问和免费的方向发展。

在「开源」这件事上，非营利组织 OSI 一直扮演着重要的角色。OSI 维护了一个被业内认可的许可证列表，其定义的开源包括十余个关键条款，如自由再分发、源代码可获得、允许修改和衍生作品等。自 1998 年定义「开源」标签并成立以来，OSI 对开源软件的定义已被开发人员广泛接受。

如今，随着人工智能重塑格局，科技巨头们面临着一个关键选择：是接受这些既定原则，还是拒绝它们。Linux 基金会最近也试图定义「开源人工智能」，这表明关于传统开源价值观如何适应人工智能时代的争论已日益激烈。

权威AI开源标准1.0版发布：Llama也不算开源

独立研究员和开放源代码创建者 Simon Willison 说：「既然我们已经有了一个强有力的定义，也许我们可以更积极地抵制那些『开源洗白（open washing）』并宣称自己的工作是开源的公司。」

Hugging Face 首席执行官 Clément Delangue 称：「 OSI 的定义对于围绕人工智能开放性展开讨论有巨大帮助，特别是在涉及训练数据的关键作用时。」

OSI 执行董事 Stefano Maffulli 表示，该公司花了两年时间咨询全球专家，通过与机器学习和自然语言处理的学界专家、哲学家、Creative Commons 的内容创作者等合作完善了这一定义。

OSI 对于开源 AI 的定义

OSI 表示，「开源」的人工智能系统需要满足以下几点：

可将系统用于任何目的，无需征得许可；
允许人们研究系统的工作原理并检查其组件；
允许人们为任何目的修改该系统，包括更改其输出；
人们可以出于任何目的，将系统共享给他人，无论是否经过修改。

这些自由既适用于功能齐全的系统，也适用于系统的离散元素。行使这些自由的先决条件是能够对系统进行修改。

再进一步，对于机器学习系统可修改的形式，OSI 也进行了定义。必须包含以下所有元素：

数据信息：用于训练系统的数据的足够详细的信息，以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。特别是，必须包括：
用于训练的所有数据的完整描述，包括（如果使用）不可共享的数据，披露数据的来源、其范围和特征、数据的获取和选择方式，标签程序、数据处理和过滤方法；
所有公开可用的训练数据的清单以及获取这些数据的方式；
可从第三方获得的所有训练数据的列表以及从何处获取（包括付费）。
代码：用于训练和运行系统的完整源代码。该代码应展示出如何处理和过滤数据以及如何进行训练的完整规范。代码应在 OSI 批准许可下提供。
例如，如果使用，则必须包括用于处理和过滤数据的代码、用于训练的代码（包括使用的参数和设置）、验证和测试、支持库（如分词器和超参数搜索代码）、推理代码和模型架构。
参数：模型参数，例如权重或其他配置。参数应根据 OSI 批准条款提供。
例如，训练中间阶段的检查点以及优化器状态。

对于机器学习系统，模型权重也是一个重要因素。OSI 在开源定义中表述道：