视频生成基础

AI视频生成需要理解时序建模、扩散模型等核心技术,这是掌握视频生成工具的基础。

共 3 篇文章·阅读时间:约40分钟

01时序建模

视频与图像的核心区别在于时间维度,时序建模是视频生成的基础。

原理

时序建模方法

  • 3D卷积:在时间和空间维度上同时卷积
  • 循环网络:使用LSTM/GRU处理序列
  • Transformer:时空注意力机制
  • 扩散模型:在潜在空间建模时序

帧间一致性

核心挑战

  • 相邻帧之间的平滑过渡
  • 物体的运动轨迹连贯
  • 背景的稳定性
  • 光影的一致性

02视频扩散模型

扩散模型是当前视频生成的主流架构,Sora、Runway等都基于此技术。

原理

视频扩散的关键

  • 视频VAE:压缩视频到潜在空间
  • 时空UNet:在潜在空间去噪
  • 条件注入:文本、图像等控制信号
  • 采样加速:减少推理步数

时空注意力

空间注意力

在单帧内捕获空间关系
类似图像生成的注意力机制

时间注意力

在帧间捕获时间关系
保证视频的时序连贯性

03质量评估

视频质量评估需要考虑空间质量和时序一致性两个维度。

评估指标

  • FVD:Fréchet Video Distance,视频版FID
  • IS:Inception Score,评估多样性
  • 时序一致性分数:相邻帧的相似度
  • 主观评估:人工质量评分
----