Sora

OpenAI推出的革命性视频生成模型，能够根据文本生成长达60秒的高质量视频。

预计阅读时间：45分钟·难度：中级

Sora 简介

Sora是OpenAI于2024年发布的文生视频模型，采用DiT（Diffusion Transformer）架构，能够生成长达60秒的高质量视频。它的发布被视为AI视频生成领域的里程碑事件。

核心能力

长视频生成：支持生成长达60秒的视频
高分辨率：支持1080p分辨率输出
多样比例：支持横屏、竖屏等多种比例
复杂场景：能够生成包含多个角色的复杂场景
物理模拟：展现出一定的物理世界理解能力
3D一致性：视频中物体保持三维一致性

发展历程

2024年2月

OpenAI发布Sora技术报告，展示了一系列令人惊艳的视频样例，引发行业震动。此时仅供红队测试。

2024年12月

Sora正式向ChatGPT Plus和Pro用户开放。同时发布了Sora Turbo，提供更快的生成速度。

当前状态

Sora持续迭代更新，生成质量和速度不断提升，仍是业界顶尖的视频生成模型之一。

为什么Sora如此重要

时长突破

此前主流模型只能生成4-10秒视频，Sora将时长提升到60秒，这是质的飞跃。

涌现能力

Sora展现出训练数据中未显式标注的能力，如3D一致性、物体持久性、简单物理模拟等，这些是"涌现"出来的。

架构验证

Sora验证了DiT架构在视频生成领域的有效性，引领了行业技术方向。

技术架构

Sora采用DiT（Diffusion Transformer）架构，这是其成功的关键。与传统的UNet架构不同，DiT使用Transformer作为去噪网络。

核心组件

组件	说明
视频压缩网络	将视频压缩到低维潜在空间，同时压缩空间和时间维度
时空Patch提取	将潜在视频分解为时空块（Patch），作为Transformer的输入token
DiT Transformer	在潜在空间进行扩散去噪，使用自注意力建模时空关系
解码器	将去噪后的潜在表示解码回像素空间的视频

DiT vs UNet

传统的扩散模型使用UNet架构，而Sora使用Transformer。Transformer的可扩展性更好，能够处理更大的数据量和模型规模。当模型和数据规模增大时，DiT的性能持续提升，而UNet则有明显上限。

时空Patch的设计

时空Patch是Sora的核心创新之一，它决定了模型如何处理视频数据。

Patch化过程

1. 将压缩后的潜在视频按时间和空间划分成小块
2. 每个Patch作为一个token输入Transformer
3. Transformer通过自注意力学习Patch之间的关系
4. 处理完成后重新组装成视频

Patch大小的权衡

• 小Patch：更精细的处理，但计算量大
• 大Patch：计算效率高，但可能丢失细节
• 时间Patch大小：影响时序建模的精细程度

可变分辨率和时长

Sora能够处理不同分辨率和时长的视频，这是通过以下方式实现的：

• 将不同大小的视频Patch化为不同数量的token
• Transformer天然可以处理不同长度的序列
• 训练时随机采样不同分辨率和时长的片段
• 这种设计使模型能够适应各种输出需求

核心特性

时空Patch

将视频分解为时间和空间上的小块（Patch），类似于ViT对图像的处理方式。这使得模型能够统一处理不同分辨率和时长的视频，同时保持计算效率。

Recaption技术

使用GPT-4将简短的提示词扩展为详细的描述，提高生成质量。例如，"一只猫"可能被扩展为"一只毛茸茸的橘猫，在阳光明媚的窗台上懒洋洋地打盹，阳光透过窗户洒在它柔软的毛发上"。

物理模拟能力

Sora展现出一定程度的物理世界理解能力，这是大规模训练涌现的结果：

3D一致性

视频中的物体在运动过程中保持三维形态一致，不会出现不合理的变形。当摄像机移动时，场景中的物体从不同角度看起来都是正确的。

物体持久性

当物体被遮挡后再次出现时，能够保持之前的外观特征。这是长视频中保持连贯性的关键能力。

简单物理规律

模型能够理解一些基本的物理规律，如重力、碰撞、流体运动等。虽然不够精确，但视觉上足够真实。

交互性

能够生成角色与环境互动的场景，如人在雪地上行走留下脚印、球在地面弹跳等。

多种生成模式

文生视频

根据文本描述生成视频，这是最常用的模式。

图生视频

根据图片生成视频，图片作为视频的第一帧或参考帧。

视频延展

在现有视频的基础上向后或向前延展内容。

视频编辑

根据文本指令修改现有视频的内容。

使用指南

Sora目前通过ChatGPT Plus/Pro订阅提供服务。以下是使用技巧和建议。

访问方式

• ChatGPT Plus：每月20美元，可使用Sora基础功能
• ChatGPT Pro：每月200美元，提供更快的生成速度和更多功能
• 访问 ChatGPT 界面中的 Sora 标签页即可使用

提示词建议

好的提示词是获得高质量视频的关键：

提示词要素

• 场景描述：详细描述场景的内容和背景
• 动作描述：描述主体正在做什么，如何运动
• 镜头运动：指定摄像机如何移动（推、拉、摇、移等）
• 光照和氛围：描述光线条件和整体氛围
• 视频时长：可以指定期望的视频长度
• 风格说明：可以指定特定风格（电影感、纪录片等）

示例提示词

"一位穿着红色风衣的女性在雨后的东京街头漫步，霓虹灯的倒影在湿润的地面上闪烁，摄像机缓缓跟随她的背影，电影感画面，慢动作，夜晚，4K"

生成参数

参数	说明	建议值
分辨率	输出视频的分辨率	根据需求选择，1080p最佳
时长	视频长度	从5秒到60秒
宽高比	横屏/竖屏/方形	根据发布平台选择
变体数量	一次生成的变体数	多生成几个选择最佳

常见问题解决

问题：生成结果与预期不符

解决：更详细地描述期望的内容，使用更具体的词汇，避免模糊的表述。

问题：视频中出现不自然的元素

解决：在提示词中明确指出需要避免的内容，或者使用负面提示。

问题：运动不流畅

解决：简化动作描述，避免过于复杂的运动组合。

局限性

尽管Sora表现出色，但仍存在一些明显的局限性：

物理模拟问题

复杂物理不准确

对于复杂的物理场景（如流体动力学、破碎、爆炸），Sora可能生成不符合物理规律的结果。

因果理解有限

模型对因果关系理解有限，可能会生成逻辑上不合理的序列。

空间和时间问题

长时间一致性

长视频中可能出现身份变化、背景不一致等问题。

空间方向混淆

偶尔会出现左右不分或空间关系错误的情况。

细节问题

文字渲染

视频中的文字经常出现拼写错误或变形。

细小物体

远处的细小物体或人群可能出现扭曲或变形。

使用限制

• 需要付费订阅才能使用
• 每月有生成次数限制
• 生成速度相对较慢（尤其是长视频）
• 内容有安全审查限制

竞品对比

特性	Sora	Runway Gen-3	可灵
最大时长	60秒	10秒	2分钟
分辨率	1080p	1080p	1080p
时序一致性	优秀	优秀	良好
运动幅度	大	中等	大
访问方式	ChatGPT订阅	独立订阅	Web/App
价格	$20-200/月	$15-95/月	免费/付费

选择建议

• 追求最长时长：选择可灵，支持2分钟视频
• 追求最高质量：选择Sora，综合质量最佳
• 需要精细控制：选择Runway，提供运动笔刷等工具
• 预算有限：选择可灵或Pika，有免费额度

未来发展

技术发展方向

更长时长

继续突破视频时长限制，向分钟级甚至更长发展。

更高分辨率

从1080p向4K甚至更高分辨率发展。

音频同步

实现视频与音频的同步生成，提供更完整的视听体验。

实时生成

随着技术进步，可能实现实时或接近实时的视频生成。

应用前景

• 影视制作：概念验证、预览、特效制作
• 广告营销：快速制作营销视频内容
• 教育培训：制作教学演示视频
• 社交媒体：个人创作内容
• 游戏开发：过场动画、概念设计

← 质量评估

Runway Gen →