生成更美图像、直出分钟级视频,国产自研DiT架构的越级之旅

发布时间:2024-08-06 16:52:26 浏览量:234次

一转眼,2024 年已经过半。AI 尤其是 AIGC 领域出现一个越来越明显的趋势:文生图赛道进入到了稳步推进、加速商业落地的阶段,但同时仅生成静态图像已经无法满足人们对生成式 AI 能力的期待,对动态视频的创作需求前所未有的高涨。

因此,文生视频赛道持续高热,尤其是自年初发布 Sora 以来,以 Diffusion Transformer(DiT)为底层架构的视频生成模型迎来了井喷期。在这一赛道,国内外视频生成模型厂商们正默默展开着一场技术竞速。

在国内,一家成立于去年 3 月、专注于构建视觉多模态基础模型及应用的生成式 AI 初创公司智象未来(HiDream.ai),自主研发的视觉多模态基础模型实现了不同模态之间的生成转换,支持文生图、文生视频、图生视频和文生 3D,并推出了一站式 AI 图像和视频生成平台「Pixeling 千象」供社会大众上手使用。

体验地址:点击咨询

自智象大模型 2024 年 8 月上线以来,通过优化基础模型来深挖、拓展文生图和文生视频等 AIGC 能力,智象大模型再次迎来升级,基于中文原生的独有 DiT 架构释放出更强大、更稳定、对用户更友好的图像和视频生成能力,包括更具美感和艺术性的图像生成、图像中文字嵌入、分钟级视频生成等。

图像1

所有这些图像和视频生成新技能的展示,离不开智象未来在多模态视觉生成领域的技术积累和持续创新。

生成效果持续提升

更强大基模能力是引擎

智象大模型从一开始便瞄准了文本、图像、视频、3D 的联合建模,通过交互式生成技术实现精准可控的多模态内容生成,构筑强大的基模能力,让用户在其文生图、文生视频 AIGC 平台中有更好的创作体验。

此次智象大模型 2.0 的整体升级,相较于 1.0 版本在底层架构、训练数据和训练策略上均有质的变化,由此带来了文本、图像、视频和 3D 多模能力的又一次飞跃和交互体验上的切实提升。

图像2

文生图技能再进化

有了更高层次的「追求」

智象大模型 2.0 生成的图像更有美感、更具艺术性。智象大模型 2.0 生成的图像更有美感、更具艺术性。追求美感成为了此次文生图升级的重点。生成的两张图像,无论是构图色调,还是细节丰富度,看上去都有一种让人眼前一亮的感觉,这些都极大地拉升了整体画面美感。

除了让生成的图像看上去更美之外,生成图像的相关性也更强。智象大模型强化了对一些复杂逻辑的理解,使生成图像中不同物体、位置关系、

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定