揭秘WWDC24苹果AI核心技术：智能端云基础模型系统

在2024年全球开发者大会上，苹果介绍了苹果智能（Apple Intelligence），这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。

苹果智能由多个高度能产的生成模型组成，这些模型专门针对我们用户的日常任务，并能够即时适应当前活动。内置于苹果智能的基础模型已经针对诸如写作和精炼文本、优先排序和总结通知、为与家人和朋友的对话创建有趣的图像，以及简化应用程序间交互的应用程序内操作等用户体验进行了微调。

在以下概述中，我们将详细介绍这两个模型——一个约30亿参数的设备上语言模型，以及一个更大的基于服务器的语言模型，该模型可通过私有云计算使用，并运行在苹果服务器上——它们是如何构建和适应以高效、准确、负责任地执行专业任务的。这两个基础模型是苹果创建的更大家族生成模型的一部分，以支持用户和开发者；这包括一个编码模型，用于在Xcode中构建智能，以及一个扩散模型，帮助用户在信息应用中等视觉上表达自己。

我们对负责任AI开发的专注

苹果智能的设计在每一步都体现了我们的核心价值，并建立在突破性隐私创新的基础上。

此外，我们制定了一套负责任的AI原则，以指导我们如何开发AI工具以及支撑这些工具的模型：

用智能工具赋予用户权力：我们确定AI可以负责任地使用的领域，以创建解决特定用户需求的工具。我们尊重用户选择使用这些工具来实现他们的目标的方式。
代表我们的用户：我们构建深度个性化的产品，目标是真实地代表全球用户。我们持续努力避免在我们的AI工具和模型中延续刻板印象和系统性偏见。
用心设计：我们在流程的每个阶段都采取预防措施，包括设计、模型训练、功能开发和质量评估，以识别我们的AI工具可能如何被滥用或导致潜在伤害。我们将在用户反馈的帮助下，持续主动改进我们的AI工具。
保护隐私：我们通过强大的设备上处理和像私有云计算这样的突破性基础设施来保护我们用户的隐私。我们在训练我们的基础模型时，不使用用户的私人个人数据或用户交互。

这些原则反映在整个架构中，该架构使苹果智能成为可能，将功能和工具与专业模型相连接，并扫描输入和输出，为每个功能提供其正常运行所需的信息。

在本概述的其余部分，我们将提供有关我们如何开发高度能产、快速和节能的模型的决策的详细信息；我们如何接近这些模型的训练；我们的适配器如何针对特定用户需求进行微调；以及我们如何评估模型性能，以帮助性和意外伤害为标准。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图1：苹果基础模型的建模概述。

预训练

我们的基础模型是在苹果的AXLearn框架上训练的，这是我们在2023年发布的一个开源项目。它建立在JAX和XLA之上，允许我们在各种训练硬件和云平台上，包括TPU和云及本地GPU上，以高效率和可扩展性训练模型。我们使用了数据并行、张量并行、序列并行和完全分片数据并行（FSDP）的组合，来沿着数据、模型和序列长度等多个维度扩展训练。

我们在授权数据上训练我们的基础模型，包括为增强特定功能而选择的数据，以及我们的网络爬虫AppleBot收集的公开可用数据。网络发布者可以选择退出使用他们的网页内容进行苹果智能训练的数据使用控制。

我们从不使用用户的私人个人数据或用户交互来训练我们的基础模型，我们应用过滤器来删除公开可用的个人身份信息，如社会安全号码和信用卡号。我们还过滤掉亵渎和其他低质量内容，以防止其包含在训练语料库中。除了过滤，我们还执行数据提取、去重和应用基于模型的分类器来识别高质量的文档。

后训练

我们发现数据质量对模型成功至关重要，因此我们在训练管道中采用了混合数据策略，结合了人工注释和合成数据，并进行了彻底的数据策划和过滤程序。我们在后训练中开发了两种新算法：(1)带有教师委员会的拒绝抽样微调算法，以及(2)具有镜像下降策略优化和留一法优势估计器的人类反馈强化学习（RLHF）算法。我们发现这两种算法显著提高了模型的指令遵循质量。

技术优化

除了确保我们的生成模型高度能产外，我们还使用了一系列创新技术来优化它们在设备上和我们的私有云上的速度和效率。我们为第一令牌和扩展令牌推理性能应用了广泛的优化集。

设备上和服务器模型都使用分组查询注意力。我们使用共享的输入和输出词汇嵌入表来减少内存需求和推理成本。这些共享的嵌入张量在没有重复的情况下映射。设备上模型使用49K的词汇量，而服务器模型使用100K的词汇量，其中包含额外的语言和技术标记。

对于设备上推理，我们使用低比特调色板，这是一个关键的优化技术，实现了必要的内存、功耗和性能要求。为了保持模型质量，我们开发了一个新的框架，使用LoRA适配器，结合了混合2位和4位配置策略——平均每权重3.5位——以实现与未压缩模型相同的准确性。

此外，我们使用交互式模型延迟和功耗分析工具Talaria，以更好地指导每个操作的比特率选择。我们还利用激活量化和嵌入量化，并开发了一种方法，使我们的神经引擎能够高效地更新键值（KV）缓存。

通过这套优化，我们在iPhone 15 Pro上能够达到每个提示令牌的首次令牌延迟约为0.6毫秒，生成速率为每秒30个令牌。值得注意的是，这种性能是在没有使用令牌推测技术之前获得的，从这些技术中我们看到了代币生成速率的进一步提高。

模型适应

我们的基础模型针对用户的日常生活活动进行了微调，并且可以动态地针对手头的任务即时专业化。我们使用适配器，这是可以插入预训练模型各个层的小神经网络模块，来微调我们的模型以执行特定任务。对于我们的模型，我们适应了注意力矩阵、注意力投影矩阵以及点式前馈网络中的全连接层，以适应变换器架构的适当解码层集。

通过仅微调适配器层，原始预训练模型的参数保持不变，同时保留模型的一般知识，同时定制适配器层以支持特定任务。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图片

图2：适配器是覆盖在通用基础基础模型上的小型模型权重集合。它们可以动态加载和交换——赋予基础模型即时专业化以应对手头任务的能力。苹果智能包括一系列适配器，每个适配器都针对特定功能进行了微调。这是一种有效的方式来扩展我们基础模型的能力。

我们使用16位表示适配器参数的值，对于约30亿参数的设备上模型，一个16级适配器的参数通常需要几十兆字节。适配器模型可以动态加载，临时缓存在内存中，并交换——赋予我们的基础模型即时专业化以应对手头任务的能力，同时有效管理内存并保证操作系统的响应性。

为了促进适配器的训练，我们创建了一个高效的基础设施，允许我们在基础模型或训练数据更新时快速重新训练、测试和部署适配器。适配器参数使用优化部分介绍的准确性恢复适配器进行初始化。

性能和评估

我们的重点是提供能够使用户能够在苹果产品上进行通信、工作、表达自己和完成任务的生成模型。在对模型进行基准测试时，我们专注于人类评估，因为我们发现这些结果与我们产品中的用户体验高度相关。我们对特定功能适配器和基础模型进行了性能评估。

为了说明我们的方法，我们看看我们如何评估我们的摘要适配器。由于产品对电子邮件和通知摘要的要求在微妙但重要的方式上有所不同，我们在调色板模型上微调了准确性恢复低秩（LoRA）适配器，以满足这些特定要求。我们的训练数据基于由更大的服务器模型生成的合成摘要，并通过拒绝抽样策略进行过滤，只保留高质量的摘要。

为了评估特定产品的摘要，我们使用了针对每种用例精心采样的750个响应。这些评估数据集强调了我们的产品功能在生产中可能面临的多样化输入，并包括了不同内容类型和长度的单一和堆叠文档的分层混合。作为产品功能，评估性能对于代表真实用例的数据集非常重要。我们发现，我们的带有适配器的模型生成的摘要比可比模型更好。

作为负责任开发的一部分，我们确定了并评估了摘要固有的特定风险。例如，摘要有时会以不受欢迎的方式移除重要的细微差别或其他细节。然而，我们发现摘要适配器在超过99%的目标对抗性示例中没有放大敏感内容。我们继续对抗性探测以识别未知的伤害，并扩大评估以帮助指导进一步的改进。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图片

图3: 对比两种摘要使用案例的“好”和“差”响应比例。摘要根据评分者的评分分为“好”、“中”、“差”三类。如果所有维度都是好的（越高越好），则结果被分类为“好”。如果任何一个维度是差的（越低越好），则结果被分类为“差”。我们的模型配备适配器生成的摘要比可比模型更好。

除了评估由基础模型和适配器驱动的特定功能性能外，我们还评估了设备上和基于服务器的模型的一般能力。我们使用一套全面的现实世界提示的评估集来测试一般模型能力。这些提示在不同难度级别上多样化，并涵盖了主要类别，如头脑风暴、分类、封闭问题回答、编码、提取、数学推理、开放问题回答、重写、安全性、摘要和写作。

我们将我们的模型与开源模型（Phi-3、Gemma、Mistral、DBRX）和大小相当的商业模型（GPT-3.5-Turbo、GPT-4-Turbo）进行比较。我们发现我们的模型在大多数可比竞争模型中更受人类评分者的青睐。在这个基准测试中，我们的设备上模型，大约有30亿参数，超过了包括Phi-3-mini、Mistral-7B和Gemma-7B在内的更大模型。我们的服务器模型与DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo相比具有高度效率，同时表现良好。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图片

图4: 苹果基础模型与可比模型的并排评估中首选响应的比例。我们发现我们的模型更受人类评分者的青睐。

我们使用一系列多样化的对抗性提示来测试模型在有害内容、敏感话题和事实性方面的表现。我们通过人类评分者在评估集上评估的违规率来衡量每个模型，数字越低越理想。设备上和服务器模型在面对对抗性提示时都很稳健，违规率低于开源和商业模型。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图片

图5: 有害内容、敏感话题和事实性的违规响应比例（越低越好）。我们的模型在面对对抗性提示时很稳健。

我们的模型在这些提示上被人类评分者认为是安全和有帮助的，优于竞争模型。然而，考虑到大型语言模型的广泛能力，我们理解我们安全基准测试的局限性。我们正在积极与内部和外部团队一起进行手动和自动红队测试，以继续评估我们模型的安全性。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图片

图6: 苹果基础模型与可比模型在安全提示上的并排评估中首选响应的比例。人类评分者发现我们的响应更安全、更有帮助。

为了进一步评估我们的模型，我们使用指令遵循评估（IFEval）基准来比较它们与大小相当的模型的指令遵循能力。结果表明，我们的设备上和服务器模型比开源和商业模型更好地遵循详细指令。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图片

图7: 苹果基础模型和大小相当的模型的指令遵循能力（用IFEval测量，越高越好）。

我们还在内部摘要和写作基准上评估了我们模型的写作能力，包括各种写作指令。这些结果不是指我们在图3中看到的特定摘要适配器，我们也没有专注于写作的适配器。

揭秘WWDC24苹果AI核心技术：智能端云基础模型系统图8: 在内部摘要和写作基准上的写作能力（越高越好）。

结论

在2024年全球开发者大会上介绍的苹果基础模型和适配器构成了苹果智能，这是一个新的个人智能系统，深度集成到iPhone、iPad和Mac中，并在语言、图像、动作和个人上下文方面提供了强大的能力。我们的模型创建的目的是帮助用户在他们的苹果产品上完成日常活动，并在每个阶段负责任地开发，并以苹果的核心价值为指导。

我们比较了以下模型版本：gpt-3.5-turbo-0125, gpt-4-0125-preview, Phi-3-mini-4k-instruct, Mistral-7B-Instruct-v0.2, Mixtral-8x22B-Instruct-v0.1, Gemma-1.1-2B, 和 Gemma-1.1-7B。开源和苹果模型都在bfloat16精度下进行评估。