开源Sora模型权重,Open-Sora新鲜出炉

发布时间:2024-05-18 11:33:50 浏览量:124次

在AI视频生成领域,OpenAI的Sora模型以其卓越的视频生成效果迅速走红,成为全球关注的焦点。现在,Colossal-AI团队推出了新的开源解决方案“Open-Sora 1.0”,初步实现了类似Sora的功能。开源内容涵盖了整个训练过程,包括数据处理、所有训练细节和模型检查点,与全球的AI爱好者携手推动视频创作的新时代。

github代码地址:点击查看

图片注释(可选)

BLOG:Open-Sora:揭示完整的模型参数、训练细节以及类似 Sora 的视频生成模型的一切。

不久前,OpenAI Sora以其惊人的视频生成效果迅速走红,在众多文本转视频模型中脱颖而出,成为全球关注的焦点。继两周前推出用于训练和推理过程的Sora Replication,成本降低46%之后,Colossal-AI团队又推出了新的开源解决方案“Open-Sora 1.0”,涵盖了整个训练过程,包括数据处理、所有训练细节和模型检查点,与世界各地的AI爱好者携手推进视频创作的新时代。我们先来看看Colossal-AI团队发布的“Open-Sora 1.0”模型生成的繁华都市夜景视频。

Open-Sora 1.0 生成的城市景观

这只是Open-Sora技术的冰山一角。Colossal-AI团队在我们的GitHub上完全开源了模型架构、训练后的模型检查点、所有训练和数据准备过程的详细信息、视频演示和教程,供所有对文本转视频模型感兴趣的人免费学习和使用。我们将持续更新Open-Sora相关解决方案和最新动态。欢迎大家关注更新!

Open Sora全面讲解

接下来,我们将对Sora复现方案的多个关键维度进行深入讲解,包括模型架构设计、训练复现方案、数据预处理、模型输出演示以及高效的训练优化策略。

模型架构设计

我们的模型采用当前流行的扩散变压器(DiT)架构。具体来说,整个架构由预训练的 VAE、文本编码器和利用时空注意力机制的 STDiT(空间时空扩散变换器)模型组成。STDiT各层的结构如下所示。通过我们提供的代码,用户可以轻松快速地生成在自己的数据集上进行训练所需的视频文本对,从而显著降低技术障碍并为启动 Sora 复制项目做好准备。

STDiT模型结构示意图

训练复制方案

Open-Sora 的再现方案参考了稳定视频扩散 (SVD) 工作,由三个阶段组成,即:大规模图像预训练、大规模视频预训练、高质量视频数据微调。每个阶段都根据前一阶段的权重继续训练,通过逐步扩大数据,更高效地实现高质量视频生成的目标。

图片注释(可选)

  • 第一阶段:大规模图像预训练

第一阶段借助成熟的Text-to-Image模型,通过大规模图像预训练,有效降低视频预训练的成本。同时,借助互联网上丰富的大规模图像数据和先进的Text-to-Image技术,可以训练出高质量的模型,作为下一阶段视频预处理的初始化权重。

  • 第二阶段:大规模视频预训练

第二阶段进行大规模视频预训练,增加模型的泛化能力,有效掌握视频的时间序列关联性。第二阶段的模型在第一阶段的 Test-to-Image 模型中添加了时间序列注意模块,用于学习视频中的时间关系。最终,第三阶段对高质量视频数据进行微调,显着提高生成视频的质量。

  • 第三阶段:高质量视频数据微调

第三阶段对高质量视频数据进行微调,提高生成视频的质量,训练总体成本约为10,000美元。

数据预处理

为了进一步降低Sora复制的门槛和复杂性,Colossal-AI团队在代码库中提供了便捷的视频数据预处理脚本,包括公共视频数据集下载、视频拆分、提示词生成等。通过我们提供的代码,用户可以快速开始Sora复制预训练,降低技术障碍。

图片注释(可选)

基于数据预处理脚本自动生成视频/文本对

视频演示

我们来看看Open-Sora的实际视频生成结果,包括大海拍打悬崖海岸岩石、壮丽的山瀑布、海龟在珊瑚礁中游泳、银河系繁星等。如果您有更多有趣的想法,欢迎访问我们的Open-Sora开源社区获取模型权重免费体验。

图片注释(可选)

欢迎持续关注Open-Sora开源项目:点击查看,推动AI技术在电影、游戏、广告等领域的应用。

高效训练

在视频生成过程中,我们提供Colossal-AI加速系统,实现高效训练。通过内核优化和混合并行等高效训练策略,我们成功提高了1.55倍的加速。

图片注释(可选)

STDiT 模型架构在训练过程中表现出卓越的效率,实现了高达5倍的加速,尤其在处理长视频序列等任务中具有关键意义。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定