一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。 图片 对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

团队介绍：本项目的核心开发团队主要由上海交通大学GAIR研究组，研究团队早在一个多月前发布o1复现进展报告。

详细作者介绍见：https://github.com/GAIR-NLP/O1-Journey#about-the-team

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

团队在本工作中特意聚焦于业内广泛使用却往往未被公开披露的蒸馏技术，想在 “揭秘” 蒸馏技术背后所能达到的收益的同时，又对 AI 研究界进行一次倡议，呼吁优先考虑透明创新的方法，而不是一味追求短期性能提升和 AI 技术研发 "捷径"。研究团队坚信，培养能够从第一性原理思考而不是简单套用现有解决方案的下一代 AI 研究者至关重要。

团队选择 Qwen2.5-Math-72B 作为基础模型，经过精心设计的数据筛选和处理流程，仅使用数万个从 o1 蒸馏的长思考链样本进行训练。在美国高中数学邀请赛 (AIME) 等权威测试中，模型表现优于 o1-preview。研究表明，通过标准的监督微调方法，模型不仅掌握了复杂的数学推理能力，还展现出强大的泛化性。令人惊喜的是，这个主要针对数学推理训练的模型在其他领域也表现出色：

安全性评估中，在 Flames 测试集上的得分从 91% 提升至 92.5%
在应对误导性问题时的抵抗力显著增强，抗 "奉承" 能力从 89.70% 提升到 92.65%
在通用场景评估中，Auto-J 和 LIMA 测试集的得分分别提升了 6.4 和 10 个百分点

技术文档：https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf

相关资源将近日公开：https://github.com/GAIR-NLP/O1-Journey

"这个突破背后隐藏着重要警示。" 项目负责人表示，知识蒸馏虽然提供了快速提升模型性能的捷径，但也带来了三个层面的隐忧：

1. 技术层面：模型性能受限于教师模型，难以实现真正的突破创新

2. 研究方向：过度依赖蒸馏可能导致核心技术研发投入不足

3. 人才培养：简单的模型复制和优化可能削弱研究人员的基础创新能力

为推动行业良性发展，团队创新性地提出了技术透明度指数 (TTI) 框架。该框架从数据、方法、评估和开源资源四个维度，对 AI 模型复制工作进行全面评估。研究发现，目前业界多个 o1 复现项目的透明度普遍不足，最高分仅为 33 分。研究团队建议，AI 领域应当：

保持技术组合平衡，不过度依赖单一方法
持续投入基础设施和算法研究
重视人才培养，强化第一性原理思维的训练

"构建智能 AI 系统固然重要，但培养具有第一性原理思维的人才才是我们的终极使命。" 这句话道出了 AI 发展的深层智慧 —— 技术进步离不开深入的思考和创新。这项研究不仅展示了 AI 技术的最新进展，更为整个行业的发展方向提供了重要启示。在追求技术突破的同时，如何保持创新活力、培养高质量人才，将是决定 AI 未来的关键因素。

具体而言，这份报告分为几个重要的板块：

（1）详细解析了蒸馏 OpenAI o1 系列模型的技术路线，并对其有效性进行了全面的评估。研究团队发现，在一个不错的基础数学模型上仅仅通过几万条 o1-mini 的蒸馏样本进行微调，就可以在美国高难度的数学竞赛 AIME 上超越 o1-preview 的水平，并且整个过程所需要的技术复杂度极低。

（2）除了数学推理这个场景外，我们还探索了 o1 蒸馏模型在其他不同视角（如幻觉、安全性）下的表现，这些跨域实验不仅揭示了知识蒸馏技术的优势，也展现了其固有局限性，并发现了一些意想不到的跨域表现模式。

（3）建立了一个全面的基准框架，在多个不同的角度（如数据透明性、方法技术透明性、评估透明性以及资源的开源程度）评估和分类 o1 的各种复现尝试工作的技术透明度与开放性，并为此设立了一套排行版机制。

（4）最后，此研究报告还进行了非常深刻的讨论，最终得出尽管追求更强大的 AI 很重要，但培养具有第一性原理思维的研究人员往往更加重要。这一教育使命不仅仅是一个技术层面的考虑，更是一项将塑造 AI 创新未来的根本性人文使命。

章节 1：o1 复现的一条 “捷径”

o1 技术的回顾

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

o1-Journey (Part1) 中探索的技术路线。

研究团队早在一个多月前的 o1-Journey (Part1) 中已经提出了一种结合树搜索构建长思维链数据的方式，并取得了一定的初步效果。在整个技术路线中，最为关键的一个环节是如何构建长思维链数据，这种长思维数据需要体现 “深度” 的思考，包含反思、纠错和回溯步骤。虽然树搜索是最有效的方法之一，但它可能会耗费大量计算资源和时间。除了树搜索之外，合成长推理链的其他替代方法如下图所示。这些方法在计算效率和推理完整性之间提供了不同的权衡。

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

各种合成长思维数据的方法（按照代价从小到大）。

完整的人类思维过程标注（代价最高）

人类解决问题很少遵循一条通向成功或失败的线性路径。相反，人们在遇到障碍时会经常停下来反思、回溯并修改他们的方法。这个自然过程反映了长思维的特征。通过详细记录人类如何解决问题，我们可以生成真实的长思维训练数据。但是这种方式需要依赖大量极高质量的人工标注，并且随着问题难度的升级，标注的难度也会大幅上升。

多智能体方法

与策略模型不直接对反馈作出反应的历程学习 (Journey Learning) 不同，我们可以让多个智能体参与探索过程，指导它们扮演不同的角色。例如，我们可以构建一个多智能体辩论系统，其中策略模型生成持续的推理，而评判模型则评估是继续还是回溯。当找到解决方案时，这种交互过程自然会产生长思维训练数据。

从高级模型蒸馏

像 o1 系列这样强大的模型展示出强大的反思和自我纠正能力。使用更强大的模型来指导较弱模型的常见做法，是一种简单，不需要设计复杂技术路线的方法。然而，由于 o1 限制了对其内部思维过程的访问，因此需要谨慎的提示词设计。

蒸馏的技术路线

格式对齐

团队选用了 Qwen-2.5-Math-72B 作为基座模型，在实际进行蒸馏之前，研究团队首先在这个模型上面进行了 “格式化对齐”(Reformatted Alignment)。团队从开源数据集 NuminaMath-CoT 上选取了一部分奥林匹克级别的问题作为起点，并应用了一个过滤流程来优化数据集：设计规则移除了依赖图像的问题、缺乏明确标注答案的问题以及所有证明题，仅保留答案类型为数值的问题。为了进一步增强数据集，利用 GPT-4o-mini 重写原始解答。重写过程遵循特定的标准，确保解答的步骤是细粒度的、高度详细的，并且篇幅更长。这一步骤还规范化了输出格式，要求使用 \boxed {} 明确表示最终答案，以符合长思维格式。

蒸馏：通过使用 OpenAI o1 进行长思维链的合成。

实验

评估标准

与使用 Pass@k、Maj@k 或 RM@k 等传统评估指标不同，我们引入了一个新指标，旨在评估模型在不同计算代价场景下的表现。这种新方法反映了 “推理时扩展”(inference-time scaling) 的真实情况，在衡量大模型的有效性和效率方面发挥着关键作用。在 “推理时扩展” 时代，像 OpenAI 的 o1 系列这样的模型已经证明，性能不仅取决于训练时的计算量，还显著受到推理过程中 "思考" 时间的影响。这种转变需要一个更细致的评估指标，以考虑计算成本和性能之间的权衡。团队提出的指标通过测量模型在特定的 benchmark 上，在一定的平均输出 Token 下，获得的准确率，反映这种 “推理时扩展” 的模式。此外，这个指标本质上是可扩展的。在评估选取的平均 Token 比单次模型输出 Token 数更高的场景中，采用 Maj@k 指标来近似模型的性能。注意，整个过程无需使用任何额外的奖励模型。通过采用这种方法，我们确保了一个可扩展且公平的评估框架，能够捕捉模型在不同推理时间计算设置下的表现。这种方法避免了人为约束，并允许进行有意义的比较，而无需依赖外部奖励信号，仅专注于模型的内在推理能力。

结果

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

使用蒸馏数据 SFT 后的模型在 AIME2024 和 MATH500 两个 benchmark 上与 o1 系列模型在一定“推理代价”的表现比较。

结果表现，在相似的 “推理计算代价”（即在对应 benchmark 的平均输出 token 类似的情形下），采用蒸馏技术得到的模型具有出色的表现，在 AIME2024 上超过了 o1-preview 的表现。

章节 2：复杂推理以外的能力

除了在推理场景下，对蒸馏技术得到的模型进行性能的探究之外，团队还涉足许多其他角度的问题，例如安全、幻觉，以及在更加通用场景任务上的表现。为了研究模型在不同领域的泛化能力，我们首先构建了一个多样化的双语数据集。从我们的蒸馏 o1 模型输出中，我们精心选择了大约 5,000 个包含回溯思维和自我反思的高质量样本。这些样本随后使用 GPT-4o mini 模型翻译成中文，形成了一个数量均衡的双语数据集。最终的训练数据集包含 10,750 对中英混合样本对。然后，我们使用这个精选数据集对 Qwen2.5-72B-Instruct 模型进行监督微调（SFT），从而获得我们的最终模型。

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

基于 Qwen2.5-72B-Instruct，经过 o1-mini distill 的数据 SFT 前后，模型在安全性、幻觉（事实准确性）、以及一些通用场景任务下的表现性能对比。

安全性

为了全面评估模型安全性方面的泛化能力，团队构建了一个由 600 个问题组成的多样化测试集，这些问题是从三个已建立的安全评估数据集中精心选择的：Flames、DiaSafety 和 WildSafety。具体来说，我们从每个数据集中提取 200 个问题，以确保在不同安全场景中的平衡代表性。我们使用 Safety-J 来评估原始模型和微调模型的响应。评估结果揭示了模型在安全性影响上的有趣现象：虽然在 Flames 上的表现略有提升（从 91% 提高到 92.5%），在 DiaSafety 上保持稳定（100%），但在 WildSafety 上出现了明显的下降（从 92% 降至 86.5%）。这种安全性指标的轻微下降凸显了一个关键发现：即使使用以回顾和反思为重点的高质量 o1 类训练数据，如果训练数据缺乏明确的安全性对齐，模型的安全性表现也可能出现退化。

幻觉（事实准确性）

团队还评估了模型在利用 o1 蒸馏的数据 SFT 前后的事实准确性。团队使用了来自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的数据集。这些数据集包含中文和英文的基于知识的问题，用于验证模型的事实准确性。ChineseFactEval 数据集包含两个子集：通用问答和奉承性问答。奉承性问答子集在提示中包含误导性答案，以测试模型的奉承倾向，而通用问答子集则采用类似 SimpleQA 的格式。这些数据集中的所有问题都需要可验证的简短答案。我们使用 GPT-4o 评估模型响应与标准答案的匹配程度，以获得更稳健的答案匹配结果。

结果表明，经过 o1 蒸馏得到的数据 SFT 后的模型在事实准确性方面没有显示出显著改进。这主要是因为更长的推理链导致了额外的幻觉 —— 尤其是模型试图假装使用搜索引擎并虚构搜索结果的现象。然而，这些尝试使用搜索引擎的行为暗示了一个有前途的方向，我们认为为模型提供实际的网络访问能力将显著提高其事实准确性。此外，SFT 后模型增强的推理链提供了详细的分析和自我反思能力，这可能有助于防止幻觉的产生。我们还发现，经过 SFT 后，模型对奉承的易感性略有降低。这种改进可以归因于自我反思过程，在这个过程中，模型能够辨别并深入思考提示中呈现的不合理假设，而不是不加质疑地接受它们。

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

例1：反思和深度思考缓解回答的幻觉

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

例2：反思和深度思考缓解回答的幻觉

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

例3：反思和深度思考缓解回答的幻觉

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

例4：反思和深度思考检测错误的假设

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

例5：反思和深度思考缓解回答的幻觉

通用场景任务

为了评估我们模型在通用场景中的表现，我们从 Auto-J 和 LIMA 数据集中各抽取 50 个查询，组成了一个包含 100 个查询的测试集，并通过人工调整，特别聚焦于长期规划任务，并请三位领域专家对模型的输出质量进行 0-100 分的评估。评估结果显示在经过 o1 蒸馏数据微调后，模型的表现有显著改进。在 Auto-J 查询上的得分从 81.6% 提升至 88%，在 LIMA 查询上从 77.2% 提升至 87.2%。这种性能提升表明，我们的微调方法不仅改善了双语对话能力，还增强了模型处理一般任务的能力，特别是在需要长期规划和结构化思维的场景中。

章节 3：对工作透明度的评分体系

为了系统地评估和比较各种尝试 o1 复现的工作，我们提出了基于透明度的评价体系，这是一个全面的框架，用于量化各个工作实现的透明度和可复现性。该框架旨在为研究界提供客观指标，主要从透明度角度评估 o1 复现工作，这包括几个相互关联的方面：数据透明度，涵盖下游进行搜索或后训练所用数据集的透明性；方法透明度，体现在所描述技术、流程和实验设置是否清晰；以及评估透明度，考虑性能评估的可复现性和全面性。此外，该框架还评价了资源的开源程度，如代码、数据集和模型是否开源，以确保研究界能验证和有效利用这些工作。这种全面的视角捕捉了复现工作中透明度的多面性。

数据透明度

这一方面评估数据来源是否明确在技术报告中指明，包括所使用数据集及其各自来源的详细描述。这个数据涉及下游任务（如监督微调 (SFT)、强化学习 (RL) 或搜索算法）中使用的所有数据集。数据的透明度，对后期后训练、搜索算法、强化学习，以及最重要的长思维数据构建阶段起到了非常重要的奠基作用。

方法透明度

方法透明度确保对工作中采用的方法、技术和流程有足够详细的描述，以方便其他研究者的复现和验证。本部分的评估由多个部分组成，从基础模型的选取、介绍到训练、搜索、强化学习和数据合成方法。此外，除了详细说明方法如何实施外，验证方法本身的有效性更为重要。全面的评估应量化各个技术对整体系统性能的贡献（例如设计消融实验、对比实验），而不是简单地报告最终结果。

评估透明度

评估透明度包括方法选用的 benchmark 测试集是否是领域公认的，并且全面公开的；此外，采用的评估指标是否权威，如果牵涉到自己定义的评估指标是否有详细介绍其定义以及发明的动机。同时，在汇报的 baseline 中，很重要的一点是评估指标的对齐，即对不同的模型 / 方法是否是在公平、一致的实验环境下进行评测的。

资源的开源程度

开源资源在促进可重复性和使研究社区能够建立在现有工作之上发挥着重要作用。这一部分评估数据集、模型、代码和文档的可用性和可访问性，这些对于独立验证和进一步实验至关重要。

针对以上提到的科研工作透明性的评价角度，研究团队精心设计了一套评分机制，这套机制里涵盖了 25 个是 / 否问题，并结合每个问题的重要性赋予不同的分值，最后得到了一套总分为 100 分的评价体系。

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

对 o1 各种复现工作的评价体系，包含了 25 个 Yes/No 问题，总分为 100 分。

利用上述的评价体系，团队对市面上现存的 o1 复现工作进行了全面的评估。涉及的工作包括：Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2，即本工作)，评估的结果如下表所示：

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

各种 o1 复现工作的透明度得分 (截至 2024.11.22 日的统计）。

从评估结果可以看出，无论是工作在各个维度的透明开放程度，还是在资源的开源方面，团队系列的 o1-Journey 工作都占据了非常大的优势，即有非常大的透明性、开放性层面，从而利于研究社区的进一步利用和探索。

章节 4：“蒸馏” 的背后？

教训

从 o1 进行知识蒸馏的显著成功，为在数学推理任务中获得令人印象深刻的性能提升提供了一条 “诱人” 的捷径。虽然这种方法提供了即时且切实的效益，但它掩盖了一系列深层挑战，这些挑战威胁着 AI 技术及其研究社区的长期发展。在本节中，团队将探讨优先选择容易获胜而非基础创新付出的真实代价，揭示出远超纯技术层面的影响。

表面吸引力：乍一看，蒸馏似乎是一种优雅的解决方案：通过直接学习 o1 的复杂推理模式，模型可以通过相对简单的实现方式快速获得显著的性能提升。这种易用性使其得到了广泛应用，尤其是在那些希望迅速展示接近 o1 能力的组织中。然而，这种便利背后隐藏的代价可能并不明显，但从长远来看，对整个领域的发展可能是毁灭性的。
性能瓶颈：最直接的技术问题或许在于蒸馏方法的内在局限性。通过蒸馏训练的模型，其能力不可避免地受到教师模型（在本例中为 o1-mini 模型）水平的限制。这种限制形成了隐性的 “天花板效应”，即使蒸馏过程再精妙，也无法真正超越原始模型的能力。尤其是在需要扩展到新领域或应对前所未见的挑战时，这一局限性变得尤为突出。
创新缺失：更为根本的问题在于，蒸馏方法的广泛应用使我们错失了核心技术创新的关键机会。o1 的真正突破不仅在于解决复杂问题的能力，还在于其推理时间扩展和搜索优化的精妙机制。然而，通过规避开发这些基础能力的挑战，我们可能正在加剧技术差距 —— 即掌握核心技术的组织与主要依赖蒸馏的组织之间的鸿沟。随着领域的不断发展，这种技术基础设施差距可能变得愈发难以弥合。
研究风气的转变：对科学研究风气的影响同样令人担忧。通过蒸馏获得 “轻松取胜” 的便利性，正在使研究重点逐渐远离基础性挑战。这一趋势表现为对高级计算基础设施投资的减少，以及对复杂搜索和推理算法开发的重视程度降低。这种由此产生的自我强化循环 —— 缺乏基础设施限制了研究可能性，从而进一步鼓励依赖蒸馏方法 —— 有可能形成一个创新瓶颈，阻碍未来的重大突破。
基础能力的削弱：最令人警惕的，是蒸馏方法对领域内教育发展的影响。蒸馏方法的广泛采用对未来 AI 研究者的培养构成了显著威胁。当学生和职业初期的研究者主要接触 “捷径” 式的解决方案时，他们错失了发展深度问题解决能力的关键机会。从第一性原理出发解决复杂技术挑战的能力 —— 科学创新的基石 —— 可能会随着快捷方案成为常态而逐渐被削弱。我们正目睹下一代 AI 研究者在问题解决方式上的转变：他们不再通过解决基础性挑战获得深刻理解，而更多地接受优化和提示工程的训练。这种从 “如何运作” 到 “什么有效” 的转变，标志着研究心态的根本变化，可能对领域未来的创新能力产生深远影响。
第一性原理的衰退：第一性原理思维的削弱尤为令人担忧，因为它动摇了科学创新的根基。从零开始开发搜索算法、优化推理时间以及构建推理机制的过程，提供了蒸馏方法无法替代的宝贵学习经验。这些挑战迫使研究者深入理解模型的行为与局限性，形成系统性问题解决策略，并培养对算法设计与优化的直觉。如果缺少这些经历，我们可能会培养出一代更倾向于套用现有方案，而非基于第一性原理开发新方案的研究者。这种趋势将对领域的长远发展产生深远的不利影响。
学术影响：这种教育影响不仅限于个人技能的培养，对学术研究环境的冲击尤为显著。学术界历来是孕育基础性创新的摇篮，但其对这种趋势的脆弱性不容忽视。对快速产出的压力可能掩盖深入技术探索的价值，同时令学生对追求更具挑战性和基础性的研究方向望而却步。当研究重点更多放在性能指标而非深层理解上时，可能导致培养出一代擅长优化却缺乏创新能力的研究者。这种转变对学术界的长远发展无疑是一个巨大的隐患。
不断扩大的鸿沟：展望未来，这些因素的累积效应描绘出一个令人担忧的前景。那些掌握了基础搜索和推理技术的组织，与主要依赖蒸馏方法的组织之间的技术能力差距可能会变得愈发难以弥合。这一鸿沟可能导致研究生态系统的失衡：真正的突破将成为少数资源充足的组织的专属领域，而更广泛的研究群体则被困在依靠蒸馏实现渐进式改进的循环中。这种局面不仅限制了整体技术的多样性，也将显著影响领域的创新能力和公平发展。