一个基于 Diffusion 的视频生成模型 StableVideo,通过向现有的基于文本的Diffusion模型引入时间依赖性,为编辑的对象生成一致的外观,从而解决闪烁问题。
利用层次表示的概念将外观信息从一帧传播到下一帧。基于此机制构建了一个基于文本的视频编辑框架,它可以实现一致性感知的视频编辑。
论文
Paper page - StableVideo: Text-driven Consistency-aware Diffusion Video Editing (huggingface.co)
Github
模型