Sora

OpenAI推出的革命性视频生成模型,能够根据文本生成长达60秒的高质量视频。

预计阅读时间:45分钟·难度:中级

Sora 简介

Sora是OpenAI于2024年发布的文生视频模型,采用DiT(Diffusion Transformer)架构,能够生成长达60秒的高质量视频。它的发布被视为AI视频生成领域的里程碑事件。

核心能力

  • 长视频生成:支持生成长达60秒的视频
  • 高分辨率:支持1080p分辨率输出
  • 多样比例:支持横屏、竖屏等多种比例
  • 复杂场景:能够生成包含多个角色的复杂场景
  • 物理模拟:展现出一定的物理世界理解能力
  • 3D一致性:视频中物体保持三维一致性

发展历程

2024年2月

OpenAI发布Sora技术报告,展示了一系列令人惊艳的视频样例,引发行业震动。此时仅供红队测试。

2024年12月

Sora正式向ChatGPT Plus和Pro用户开放。同时发布了Sora Turbo,提供更快的生成速度。

当前状态

Sora持续迭代更新,生成质量和速度不断提升,仍是业界顶尖的视频生成模型之一。

为什么Sora如此重要

时长突破

此前主流模型只能生成4-10秒视频,Sora将时长提升到60秒,这是质的飞跃。

涌现能力

Sora展现出训练数据中未显式标注的能力,如3D一致性、物体持久性、简单物理模拟等,这些是"涌现"出来的。

架构验证

Sora验证了DiT架构在视频生成领域的有效性,引领了行业技术方向。

技术架构

Sora采用DiT(Diffusion Transformer)架构,这是其成功的关键。与传统的UNet架构不同,DiT使用Transformer作为去噪网络。

核心组件

组件说明
视频压缩网络将视频压缩到低维潜在空间,同时压缩空间和时间维度
时空Patch提取将潜在视频分解为时空块(Patch),作为Transformer的输入token
DiT Transformer在潜在空间进行扩散去噪,使用自注意力建模时空关系
解码器将去噪后的潜在表示解码回像素空间的视频

DiT vs UNet

传统的扩散模型使用UNet架构,而Sora使用Transformer。Transformer的可扩展性更好,能够处理更大的数据量和模型规模。当模型和数据规模增大时,DiT的性能持续提升,而UNet则有明显上限。

时空Patch的设计

时空Patch是Sora的核心创新之一,它决定了模型如何处理视频数据。

Patch化过程

  1. 1. 将压缩后的潜在视频按时间和空间划分成小块
  2. 2. 每个Patch作为一个token输入Transformer
  3. 3. Transformer通过自注意力学习Patch之间的关系
  4. 4. 处理完成后重新组装成视频

Patch大小的权衡

  • 小Patch:更精细的处理,但计算量大
  • 大Patch:计算效率高,但可能丢失细节
  • 时间Patch大小:影响时序建模的精细程度

可变分辨率和时长

Sora能够处理不同分辨率和时长的视频,这是通过以下方式实现的:

  • • 将不同大小的视频Patch化为不同数量的token
  • • Transformer天然可以处理不同长度的序列
  • • 训练时随机采样不同分辨率和时长的片段
  • • 这种设计使模型能够适应各种输出需求

核心特性

时空Patch

将视频分解为时间和空间上的小块(Patch),类似于ViT对图像的处理方式。这使得模型能够统一处理不同分辨率和时长的视频,同时保持计算效率。

Recaption技术

使用GPT-4将简短的提示词扩展为详细的描述,提高生成质量。例如,"一只猫"可能被扩展为"一只毛茸茸的橘猫,在阳光明媚的窗台上懒洋洋地打盹,阳光透过窗户洒在它柔软的毛发上"。

物理模拟能力

Sora展现出一定程度的物理世界理解能力,这是大规模训练涌现的结果:

3D一致性

视频中的物体在运动过程中保持三维形态一致,不会出现不合理的变形。当摄像机移动时,场景中的物体从不同角度看起来都是正确的。

物体持久性

当物体被遮挡后再次出现时,能够保持之前的外观特征。这是长视频中保持连贯性的关键能力。

简单物理规律

模型能够理解一些基本的物理规律,如重力、碰撞、流体运动等。虽然不够精确,但视觉上足够真实。

交互性

能够生成角色与环境互动的场景,如人在雪地上行走留下脚印、球在地面弹跳等。

多种生成模式

文生视频

根据文本描述生成视频,这是最常用的模式。

图生视频

根据图片生成视频,图片作为视频的第一帧或参考帧。

视频延展

在现有视频的基础上向后或向前延展内容。

视频编辑

根据文本指令修改现有视频的内容。

使用指南

Sora目前通过ChatGPT Plus/Pro订阅提供服务。以下是使用技巧和建议。

访问方式

  • ChatGPT Plus:每月20美元,可使用Sora基础功能
  • ChatGPT Pro:每月200美元,提供更快的生成速度和更多功能
  • • 访问 ChatGPT 界面中的 Sora 标签页即可使用

提示词建议

好的提示词是获得高质量视频的关键:

提示词要素

  • 场景描述:详细描述场景的内容和背景
  • 动作描述:描述主体正在做什么,如何运动
  • 镜头运动:指定摄像机如何移动(推、拉、摇、移等)
  • 光照和氛围:描述光线条件和整体氛围
  • 视频时长:可以指定期望的视频长度
  • 风格说明:可以指定特定风格(电影感、纪录片等)

示例提示词

"一位穿着红色风衣的女性在雨后的东京街头漫步,霓虹灯的倒影在湿润的地面上闪烁,摄像机缓缓跟随她的背影,电影感画面,慢动作,夜晚,4K"

生成参数

参数说明建议值
分辨率输出视频的分辨率根据需求选择,1080p最佳
时长视频长度从5秒到60秒
宽高比横屏/竖屏/方形根据发布平台选择
变体数量一次生成的变体数多生成几个选择最佳

常见问题解决

问题:生成结果与预期不符

解决:更详细地描述期望的内容,使用更具体的词汇,避免模糊的表述。

问题:视频中出现不自然的元素

解决:在提示词中明确指出需要避免的内容,或者使用负面提示。

问题:运动不流畅

解决:简化动作描述,避免过于复杂的运动组合。

局限性

尽管Sora表现出色,但仍存在一些明显的局限性:

物理模拟问题

复杂物理不准确

对于复杂的物理场景(如流体动力学、破碎、爆炸),Sora可能生成不符合物理规律的结果。

因果理解有限

模型对因果关系理解有限,可能会生成逻辑上不合理的序列。

空间和时间问题

长时间一致性

长视频中可能出现身份变化、背景不一致等问题。

空间方向混淆

偶尔会出现左右不分或空间关系错误的情况。

细节问题

文字渲染

视频中的文字经常出现拼写错误或变形。

细小物体

远处的细小物体或人群可能出现扭曲或变形。

使用限制

  • • 需要付费订阅才能使用
  • • 每月有生成次数限制
  • • 生成速度相对较慢(尤其是长视频)
  • • 内容有安全审查限制

竞品对比

特性SoraRunway Gen-3可灵
最大时长60秒10秒2分钟
分辨率1080p1080p1080p
时序一致性优秀优秀良好
运动幅度中等
访问方式ChatGPT订阅独立订阅Web/App
价格$20-200/月$15-95/月免费/付费

选择建议

  • 追求最长时长:选择可灵,支持2分钟视频
  • 追求最高质量:选择Sora,综合质量最佳
  • 需要精细控制:选择Runway,提供运动笔刷等工具
  • 预算有限:选择可灵或Pika,有免费额度

未来发展

技术发展方向

更长时长

继续突破视频时长限制,向分钟级甚至更长发展。

更高分辨率

从1080p向4K甚至更高分辨率发展。

音频同步

实现视频与音频的同步生成,提供更完整的视听体验。

实时生成

随着技术进步,可能实现实时或接近实时的视频生成。

应用前景

  • 影视制作:概念验证、预览、特效制作
  • 广告营销:快速制作营销视频内容
  • 教育培训:制作教学演示视频
  • 社交媒体:个人创作内容
  • 游戏开发:过场动画、概念设计
----