视频生成基础
AI视频生成需要理解时序建模、扩散模型等核心技术,这是掌握视频生成工具的基础。
共 3 篇文章·阅读时间:约40分钟
01时序建模
视频与图像的核心区别在于时间维度,时序建模是视频生成的基础。
原理
时序建模方法
- 3D卷积:在时间和空间维度上同时卷积
- 循环网络:使用LSTM/GRU处理序列
- Transformer:时空注意力机制
- 扩散模型:在潜在空间建模时序
帧间一致性
核心挑战
- 相邻帧之间的平滑过渡
- 物体的运动轨迹连贯
- 背景的稳定性
- 光影的一致性
02视频扩散模型
扩散模型是当前视频生成的主流架构,Sora、Runway等都基于此技术。
原理
视频扩散的关键
- 视频VAE:压缩视频到潜在空间
- 时空UNet:在潜在空间去噪
- 条件注入:文本、图像等控制信号
- 采样加速:减少推理步数
时空注意力
空间注意力
在单帧内捕获空间关系
类似图像生成的注意力机制
时间注意力
在帧间捕获时间关系
保证视频的时序连贯性
03质量评估
视频质量评估需要考虑空间质量和时序一致性两个维度。
评估指标
- FVD:Fréchet Video Distance,视频版FID
- IS:Inception Score,评估多样性
- 时序一致性分数:相邻帧的相似度
- 主观评估:人工质量评分