Sora,OpenAI新推出的一个文生视频的新模型
周宏伟视频号视频的整理
有观点认为AI将颠覆影视业、广告业、短视频,暂时还不需要如此悲观。虽然机器能产生一个60秒的好的片段,但是一部电影,一个完整的故事,是由无数个60秒组成的,这里面有很多主题的设计,剧本的编写,脚本分镜头的策划,台词的配合,都需要人的创意,所以Sora与其说会颠覆掉传统影视业,不如说会变成传统影视业有力的生产力工具。
Sora能激发更多人的创造力,带来科技平权的概念。,过去的普通人,没有合适的武器,有很多好的想法, 也没有办法去组织一个班子,去拍摄一部看起来比较专业的影片,但Sora给普通人提供了可能性。它跟TikTok不是竞争,更有可能成为抖音创作者的一个有力的武器。
从画面上来看,它的技术思路不一样,因为之前做动画做图片,用的都是扩散模型,实际上都是在二维的图形上,进行各种操作,它并没有真正了解这个世界,也没有掌握这个世界的物理规律。
而Sora是用大模型结合底数的模型结合在一起。大模型最重要的不是能够人机对话,而是大模型理解了人类语言的基础之后,了解了我们这个世界的模型和知识,从而使得大模型和Diffusion结合在一起,它能够模拟物理世界的物理定律,例如在Sora产生的视频里,它能像人理解纸飞机碰到树会掉下来,一个汉堡被人咬了一口会剩下半个汉堡,Sora不仅是表象上作图的真实性,背后是它实现了对现实世界的理解和模拟两层的能力,这样产生的视频才是真实的,跳出了2D图像的范围。
这代表了未来的一个方向,有强大的大模型做底子,对整个人类知识和世界模型了解的基础之上,再叠加一些其他的技术,就可以创造出各个领域的超级工具,例如医学、物理、化学、科学等学术研究上,大模型这两年会有新的突破,用Sora来实现对物理世界的模拟,至少会对机器人具身智能和自动驾驶带来巨大的影响和突破。原来自动驾驶过度强调感知层面,而没有工作在认知层面,更对我们这个世界的物理规律没有掌握,但人在开车的时候,恰恰是需要这些知识。所以Sora不止是对画图、视频的运作能力。
OpenAI训练这个模型,应该会利用多模态的能力,阅读大量的视频,多模态和大语言模型能力相结合,对视频的理解将会远远超过只是将一些画面进行叠加。YouTube还有电影等很多视频都可能会成为训练样本,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,所以Sora训练需要的算力和数据,所获得的知识,应该会远远超过GPT4,甚至是GPT5,那么离AGI通用人工智能的突破就不远了,大概也就2、3年的时间。