开源Sora模型权重，Open-Sora新鲜出炉

发布时间：2024-05-18 11:33:50 浏览量：135次

在AI视频生成领域，OpenAI的Sora模型以其卓越的视频生成效果迅速走红，成为全球关注的焦点。现在，Colossal-AI团队推出了新的开源解决方案“Open-Sora 1.0”，初步实现了类似Sora的功能。开源内容涵盖了整个训练过程，包括数据处理、所有训练细节和模型检查点，与全球的AI爱好者携手推动视频创作的新时代。

github代码地址：点击查看

图片注释（可选）

BLOG：Open-Sora：揭示完整的模型参数、训练细节以及类似 Sora 的视频生成模型的一切。

不久前，OpenAI Sora以其惊人的视频生成效果迅速走红，在众多文本转视频模型中脱颖而出，成为全球关注的焦点。继两周前推出用于训练和推理过程的Sora Replication，成本降低46%之后，Colossal-AI团队又推出了新的开源解决方案“Open-Sora 1.0”，涵盖了整个训练过程，包括数据处理、所有训练细节和模型检查点，与世界各地的AI爱好者携手推进视频创作的新时代。我们先来看看Colossal-AI团队发布的“Open-Sora 1.0”模型生成的繁华都市夜景视频。

Open-Sora 1.0 生成的城市景观

这只是Open-Sora技术的冰山一角。Colossal-AI团队在我们的GitHub上完全开源了模型架构、训练后的模型检查点、所有训练和数据准备过程的详细信息、视频演示和教程，供所有对文本转视频模型感兴趣的人免费学习和使用。我们将持续更新Open-Sora相关解决方案和最新动态。欢迎大家关注更新！

Open-Sora开源地址：点击查看

Open Sora全面讲解

接下来，我们将对Sora复现方案的多个关键维度进行深入讲解，包括模型架构设计、训练复现方案、数据预处理、模型输出演示以及高效的训练优化策略。

模型架构设计

我们的模型采用当前流行的扩散变压器（DiT）架构。具体来说，整个架构由预训练的 VAE、文本编码器和利用时空注意力机制的 STDiT（空间时空扩散变换器）模型组成。STDiT各层的结构如下所示。通过我们提供的代码，用户可以轻松快速地生成在自己的数据集上进行训练所需的视频文本对，从而显著降低技术障碍并为启动 Sora 复制项目做好准备。

STDiT模型结构示意图

训练复制方案

Open-Sora 的再现方案参考了稳定视频扩散 (SVD) 工作，由三个阶段组成，即：大规模图像预训练、大规模视频预训练、高质量视频数据微调。每个阶段都根据前一阶段的权重继续训练，通过逐步扩大数据，更高效地实现高质量视频生成的目标。

图片注释（可选）

第一阶段：大规模图像预训练

第一阶段借助成熟的Text-to-Image模型，通过大规模图像预训练，有效降低视频预训练的成本。同时，借助互联网上丰富的大规模图像数据和先进的Text-to-Image技术，可以训练出高质量的模型，作为下一阶段视频预处理的初始化权重。

第二阶段：大规模视频预训练

第二阶段进行大规模视频预训练，增加模型的泛化能力，有效掌握视频的时间序列关联性。第二阶段的模型在第一阶段的 Test-to-Image 模型中添加了时间序列注意模块，用于学习视频中的时间关系。最终，第三阶段对高质量视频数据进行微调，显着提高生成视频的质量。

第三阶段：高质量视频数据微调

第三阶段对高质量视频数据进行微调，提高生成视频的质量，训练总体成本约为10,000美元。

数据预处理

为了进一步降低Sora复制的门槛和复杂性，Colossal-AI团队在代码库中提供了便捷的视频数据预处理脚本，包括公共视频数据集下载、视频拆分、提示词生成等。通过我们提供的代码，用户可以快速开始Sora复制预训练，降低技术障碍。

图片注释（可选）

基于数据预处理脚本自动生成视频/文本对

视频演示

我们来看看Open-Sora的实际视频生成结果，包括大海拍打悬崖海岸岩石、壮丽的山瀑布、海龟在珊瑚礁中游泳、银河系繁星等。如果您有更多有趣的想法，欢迎访问我们的Open-Sora开源社区获取模型权重免费体验。

图片注释（可选）

欢迎持续关注Open-Sora开源项目：点击查看，推动AI技术在电影、游戏、广告等领域的应用。

高效训练

在视频生成过程中，我们提供Colossal-AI加速系统，实现高效训练。通过内核优化和混合并行等高效训练策略，我们成功提高了1.55倍的加速。

图片注释（可选）

STDiT 模型架构在训练过程中表现出卓越的效率，实现了高达5倍的加速，尤其在处理长视频序列等任务中具有关键意义。

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 Open-Sora全新升级：视频生成支持16秒和720p - 火星时代教育

热门课程推荐

热门资讯

1. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
2. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
3. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程

人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
5. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
6. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
9. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
10. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...

开源Sora模型权重，Open-Sora新鲜出炉

Open Sora全面讲解

模型架构设计

训练复制方案

数据预处理

视频演示

高效训练

请绑定手机号