视频生成基础

AI视频生成需要理解时序建模、扩散模型等核心技术，这是掌握视频生成工具的基础。

共 3 篇文章·阅读时间：约40分钟

01时序建模

视频与图像的核心区别在于时间维度，时序建模是视频生成的基础。

原理

时序建模方法

3D卷积：在时间和空间维度上同时卷积
循环网络：使用LSTM/GRU处理序列
Transformer：时空注意力机制
扩散模型：在潜在空间建模时序

帧间一致性

核心挑战

相邻帧之间的平滑过渡
物体的运动轨迹连贯
背景的稳定性
光影的一致性

02视频扩散模型

扩散模型是当前视频生成的主流架构，Sora、Runway等都基于此技术。

原理

视频扩散的关键

视频VAE：压缩视频到潜在空间
时空UNet：在潜在空间去噪
条件注入：文本、图像等控制信号
采样加速：减少推理步数

时空注意力

空间注意力

在单帧内捕获空间关系
类似图像生成的注意力机制

时间注意力

在帧间捕获时间关系
保证视频的时序连贯性

03质量评估

视频质量评估需要考虑空间质量和时序一致性两个维度。

评估指标

FVD：Fréchet Video Distance，视频版FID
IS：Inception Score，评估多样性
时序一致性分数：相邻帧的相似度
主观评估：人工质量评分

AI视频知识

← 返回目录

下一篇

文生视频模型 →

----