Open-Sora是一项致力于高效制作高质量视频的计划。目的是让所有人都能使用模型、工具和所有细节。通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。
Open-Sora的目标是在内容创作领域促进创新、创造力和包容性。目前已经支持2s~15s、144p 到 720p、任意比例的文本转图片、文本转视频、图片转视频、视频转视频、无限时间生成。
Open-Sora的构建方法总结为以下几个方面:
数据来源与处理
利用多个开放数据集(如Webvid-10M、Panda-70M等)生成30M个视频剪辑,确保模型训练的可重复性。
数据预处理采用完整的管道,包括场景切割、视频过滤和文本生成,以确保高质量的视频文本对。
模型架构
使用3D自编码器对视频进行压缩,减少计算负担,并通过文本编码器处理文本输入。
采用空间-时间注意力机制,使得模型在生成视频时能够同时考虑空间和时间信息。
训练策略
采用多阶段训练策略,分为三个阶段以优化训练效率。
通过动态分辨率和宽高比的支持,模型能够适应不同的视频生成任务,提升生成质量。
相关链接
论文:http://arxiv.org/abs/2412.20404v1
代码:https://github.com/hpcaitech/Open-Sora
论文介绍
视觉和语言是人类的两种基本感觉,它们构成了我们的认知能力和智力。虽然人工智能语言能力取得了重大突破,但人工智能视觉智能,尤其是生成和模拟我们所见世界的能力,却远远落后。
为了促进人工智能视觉智能的发展和普及,作者创建了 OpenSora,这是一个旨在生成高保真视频内容的开源视频生成模型。Open-Sora 支持广泛的视觉生成任务,包括文本到图像生成、文本到视频生成和图像到视频生成。该模型利用先进的深度学习架构和训练/推理技术实现灵活的视频合成,可以生成长达 15 秒、高达 720p 分辨率和任意宽高比的视频内容。
具体来说,OpenSora引入了时空扩散变换器 (STDiT),这是一种高效的视频扩散框架,可将空间和时间注意力分离。我们还引入了高度压缩的 3D 自动编码器,使表示紧凑,并通过临时训练策略进一步加速训练。
Open-Sora 可以生成高保真视频。带有箭头的图像表示运动。
数据处理
高质量的数据对于训练良好的生成模型至关重要。为此,OpenSora建立了完整的数据处理流程,可以将原始视频无缝转换为高质量的视频-文本对。流程如下所示:
视频描述
数据预处理
利用预训练的 2D 自动编码器的 3D 自动编码器。
模型结构
模型架构基于 PixArt,这是一种图像扩散变换器,其中使用 T5 文本编码器对文本进行编码,并在视频和文本潜在特征之间应用交叉注意力。 为了实现高效的视频生成,采用了一种时空注意力机制,即受Latte启发的时空注意力机制,即空间时间扩散变换器 (STDiT),取代了对所有标记的完全注意力。具体而言,空间自注意力应用于每一帧内,而时间注意力应用于同一空间位置的跨帧。
为了专注于视频生成,该模型以构建一个强大的预训练图像生成模型。该模型使用 PixArtα 进行初始化,PixArtα 是一种经过 T5 条件处理的 DiT 结构,针对高质量和高效的图像生成进行了优化。新引入的时间注意力的投影层初始化为零,在训练开始时保留了模型的原始图像生成能力。时间注意力的加入使参数数量从 5.8 亿增加到 1.1 亿。
图像和视频到视频生成的通用框架。
结论
Open-Sora 代表了开源视频生成领域的重大进步,它提供了一个包括数据处理、训练代码和模型权重的综合框架。通过成功复制 Sora 报告中的关键技术,并能够生成长达 16 秒的高质量视频,分辨率高达 720p,运动动态可控,Open-Sora 使高级视频生成技术的使用变得民主化。这一举措不仅促进了社区合作,还为该领域的未来发展奠定了基础。
还没有评论,来说两句吧...