人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

2024 年是生成式 AI 元年，才到 2 月，OpenAI 就用 Sora 把竞争推向了视频生成的新高度。

我们都还记得初见 Sora 作品时受到的震撼，感叹其他竞争对手想要赶上 OpenAI，至少也得需要个半年到一年的时间。

Sora 发布后，其开发团队自然也成为关注焦点，人们都想知道具有跨时代意义的 AI 技术是如何被开发出来的。DiT 模型作者谢赛宁曾表示：「他们每天基本不睡觉高强度工作了一年」。

随着时间推移，答案正被慢慢揭晓。

以下是 OpenAI 技术报告中，Sora 的十三位作者：

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

其中的前两位，Tim Brooks、Bill Peebles，他们被认为是「Sora 之父」，担任 OpenAI Sora 项目研究主管，又十分年轻 —— 两人都是 2023 年刚刚从加州大学伯克利分校（UC Berkeley）博士毕业的。

在 Sora 技术公开后，他们曾共同进行宣讲，接受过很多媒体采访。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

图片中间为 Tim Brooks，右侧为 Bill Peebles。

看两人的工作经历，他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

我们知道，2022 年 11 月 30 日，OpenAI 的 ChatGPT 横空出世，由此掀起了大模型「颠覆世界」的浪潮。

他们追随传奇而来，如今回头望去，自己也成为了传奇。

作为 Sora 背后的主要推动者，Tim Brooks、Bill Peebles 两人的博士毕业论文，也都是以 AI 视频生成为主题的。是时候从技术发展的角度，来研究一下 Sora 的来龙去脉了。

Tim Brooks

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

个人主页：https://www.timothybrooks.com/about/

Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR，导师为 Alyosha Efros。

在博士就读期间，他曾提出了 InstructPix2Pix，他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作，并在英伟达研究过视频生成模型。博士毕业后，Tim Brooks 加入 OpenAI，参与过 GPT-4、Sora 等多项研究。

2023 年，Tim Brooks 顺利毕业，博士论文接近 100 页。论文题目为《Generative Models for Image and Long Video Synthesis 》。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

论文地址：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf

论文简介

在这篇博士论文中，Tim Brooks 提出了将图像和视频生成模型用于一般视觉内容创作的基本要素，主要体现在三个方面：

首先，论文介绍了长视频生成相关研究，并提出一种网络架构和训练范式，用于从视频中学习长程时间模式，这是将视频生成从较短的剪辑推进到较长形式且连贯视频的关键挑战。

接下来，论文介绍了基于人体姿态生成场景图像的研究，展示了生成模型用来表示人与周围环境之间关系的能力，并强调了从大型且复杂的日常人类活动数据集中学习的重要性。

最后，论文介绍了一种通过结合大型语言模型和文本到图像模型的能力来创建监督训练数据，从而指导生成模型遵循图像编辑指令的方法。这些工作共同提升了生成模型合成图像和长视频的能力。

Tim Brooks 表示，在他读博期间（2019-2023 年），图像和视频生成模型已经从小范围的演示发展成被广泛采用的创意工具。他非常庆幸自己能在这个关键的时刻攻读视觉生成模型的博士学位，他也对生成模型充满了信心。

接下来我们介绍一下 Tim Brooks 博士论文每章节的主要内容。

第 2 章专注于生成具有丰富动态和新内容的长视频。图 2.1 展示了模型能够生成丰富的运动和场景变化。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

来源：https://www.timothybrooks.com/tech/long-video-gan/

本章的主要贡献是一个分层生成器架构，生成器概览图如下所示。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

第 3 章介绍了从反映日常人类活动的复杂现实世界数据中学习的研究。人、物体及其周围环境之间的相互作用提供了有关世界的丰富信息来源。Tim Brooks 提出了一种通过条件生成模型学习这些关系的方法。早期的生成模型主要集中在特定的内容类别上，例如人脸或特定的对象类。这项工作将生成模型扩展到用人类建模复杂场景的领域。只要输入一个人的骨骼姿态，该模型就能够生成与该姿态兼容的合理场景。该模型既可以生成空场景，也可以生成输入姿态中有人类的场景。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

本小节还设计了一个条件 GAN 来生成与人类姿态兼容的场景，网络架构基于 StyleGAN2 ，如图 3.3 所示。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

这篇论文还强调了通过对日常人类活动的大型视觉数据集进行训练，来理解视觉世界复杂关系的能力。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

第 4 章提出了一种新技术，教生成模型遵循人类编辑指令。图 4.1 显示了模型执行图像编辑指令的示例，图 4.2 显示了在文本消息会话中使用的模拟接口。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文

由于难以大规模获取基于指令的图像编辑训练数据，该研究提出了一种生成配对数据集的方法，该方法结合了多个在不同模态上预训练的大型模型：大型语言模型（GPT-3 ）和文本到图像模型（Stable Diffusion）。这两个模型捕获了关于语言和图像的互补知识，可以将它们结合起来为跨两种模态的任务创建配对训练数据，而这两种模态中的任何一个都无法单独完成。

使用生成的配对数据，Tim Brooks 训练了一个条件扩散模型，该模型在给定输入图像和有关如何编辑文本指令的情况下，生成编辑后的图像。该模型可以直接在前向传播中执行图像编辑，不需要任何其他示例图像、输入 / 输出图像的完整描述或每个示例的微调。尽管模型完全在合成示例上进行训练，但其实现了对任意真实图像和人类指令的零样本泛化。该模型可以按照人类指令执行各种编辑：替换对象、更改图像样式、更改设置、艺术媒介等。

人刚毕业，颠覆整个AI界：扒一扒Sora两带头人博士论文