俗话说得好,OpenAI一出手,就知有没有。
龙年假期最后几天,Sora爆火的视频生成能力着实让人惊叹了一番(何止是一番...)。
不过,其志并不止于此。基于多种类型的视觉数据,训练出一个大一统的世界模拟器才是其终极目标:
有此“鸿鹄之志”,Sora必不简单,来看看其技术架构:
(From: https://www.bilibili.com/video/BV1RH4y1j74b/?vd_source=964bd380cc4b08df0618ec01f20911d7)
第一步,将原始视频数据,转化为低纬度的潜空间(Latent Space)特征(基于Latent Diffusion文章),这一步实际上是将原图的关键内容浓缩提炼,极大地压缩了数据量。
第二步,将上一步得到的特征切割为大小相同的Patches(基于Vision Transformer,即ViT技术),类比到大语言模型(Large Language Model, LLM)中,就是tokens。在Sora中,patches为同时包含了时间和空间信息的spacetime patches,并最终被转化为可训练的一维向量。
(From: https://zhuanlan.zhihu.com/p/682579303?utm_campaign=shareopn&utm_medium=social&utm_oi=55619453190144&utm_psn=1742473712694239232&utm_source=wechat_session)
对于视频的文本描述(Prompt)部分,OpenAI使用了其DALLE3重新字幕技术(微调的GPT4V),使视频描述内容更详细,格式更统一。
第三步,将上一步得到的图、文信息匹配在一起,喂给Diffusion Model做训练。这里的Diffusion模型将Unet架构替换为Transformer架构(Diffusion Trasformer, DiT)。
当然,在看到Sora“惊艳”部分的同时,我们也看到了它的能力边界:可以实现一定的物理交互,但幻觉问题仍然存在,无法完美地模拟真实世界事物运行所遵循的物理定律,如,玻璃杯摔碎时,碎片四溅(且呈正态分布)