奥特曼准备用o1来训练AI了？OpenAI最新论文验证该方法可行性！ 转载

谁更懂AI训练，是人类还是AI自己？

在OpenAI具有强推理功能的o1发布以后，AI训练自己这件事，又被奥特曼进一步提上了日程。

在OpenAI的开发者日活动中，奥特曼透露道："如果我们能制造出一个在人工智能研究方面比 OpenAI 所有系统都更出色的人工智能系统，那确实会让人觉得这是一个重要的奇点......模型会变得如此之好，如此之快......计划让模型迅速变得更聪明"。

奥特曼准备用o1来训练AI了？OpenAI最新论文验证该方法可行性！转载

好家伙，如果AI能日夜训练AI，那AGI的实现岂不是疯狂提速了？

为了验证这个设想是否可行，OpenAI需要找个裁判来看看AI和人类科学家训练AI的质量。

因此，他们在最新论文《MLE-BENCH：评估机器学习工程中的机器学习代理》中，介绍了新推出的用于衡量AI在机器学习工程领域能力的新工具MLE-BENCH。

MLE-bench这一基准测试，通过来自Kaggle（一个知名的机器学习竞赛平台）的75个真实世界数据科学竞赛来挑战AI训练。

先说个结果，AI训练自己很有可能：OpenAI最先进的模型o1-preview与一种名为AIDE的框架（编者注：专为Kaggle竞赛设计的框架，它允许AI Agent执行树形搜索来找到解决问题的方法）配合，在16.9%的竞赛中达到了获奖水平。这一表现相当引人注目，这意味着在某些情况下，o1已经可以和熟练的人类数据科学家掰掰手腕。

论文地址：

https://arxiv.org/pdf/2410.07095

项目开源地址：

https://github.com/openai/mle-bench/

1.MLE-bench：评判AI训练能力的裁判

为了能测试AI Agents 在机器学习方面的潜力，MLE-bench由75个来自Kaggle的不同领域的竞赛组成，涵盖了自然语言处理、计算机视觉和信号处理等多个领域，保证了测试的全面性。

该基准测试的目标是衡量AI Agent在机器学习工程方面的表现，包括模型训练、数据集准备以及实验运行等。为了确保测试结果的可比性，MLE-bench的比赛使用了与原Kaggle比赛不同的训练和测试分割，并重新实现了评分代码。

奥特曼准备用o1来训练AI了？OpenAI最新论文验证该方法可行性！转载图片

上图为OpenAI 的 MLE-bench 示意图，展示了AI Agent如何与 Kaggle 类型的竞赛互动。该系统模仿人类数据科学家的工作流程，要求人工智能执行复杂的机器学习任务，从模型训练到提交创建。

然后MLE-bench会根据人类基准对AI agent的训练性能进行打分。

2.两个发现：辅助框架与多次尝试均能提高AI训练表现

有两个提高AI训练性能的方法。

首先，就是给AI一些工具，帮助它比赛。

在构建AI Agent进行AI研发的过程中，研究者们发现，当将前沿的语言模型与开源的辅助框架结合起来时，能够起到一定的效果。

例如，使用AIDE框架的o1-preview模型能够在16.9%的比赛项目中获得至少Kaggle铜牌水平的成绩。

奥特曼准备用o1来训练AI了？OpenAI最新论文验证该方法可行性！转载图片

上图比较了三种AI Agent 在 OpenAI 的 MLE-bench 中解决机器学习任务的方法。从左到右依次为 MLAB ResearchAgent、OpenHands 和 AIDE 各自展示了应对复杂数据科学挑战的不同策略和执行时间。AIDE 框架的运行时间为 24 小时，展示了一种更全面的问题解决方法。

其次，Agent也会在尝试中更加熟练。研究发现，当给Agent提供更多的尝试机会时，它们的表现会有显著提升。例如，o1-preview在单次尝试时的成绩为16.9%，而在8次尝试后，这一比例增加到了34.1%。这意味着通过不断尝试，AI可以在这个领域获得巨大提升。