2024年2月16日,当全中国都沉浸在春节假期的喜悦中时,OpenAI发布了旗下首个文生视频(Text-to-Video)大模型Sora,其生成的多段视频质感优秀,媲美电影,我们正真看到了走在东京街道上的时尚女郎、踏雪而来的猛犸象群、咖啡杯里互相追逐的海盗船、在蜡烛边烤火的小怪兽……全世界都在惊叹“AI产业的‘iPhone时刻’已经到来”,埃隆·马斯克干脆承认“人类输了”。
Sora的名字来自日语“空”,直译过来就是天空;日语中还有一个成语“绘空事”,表示的正是“画出不存在之物、天马行空地创作”之意,全部符合这个文生视频大模型的定位。
“文生视频”,就是让大模型按照每个用户输入的指令快速生成前所未有的AI视频。这种产品并非OpenAI首创。实际上,近几年以文生视频为主业务的初创公司不断涌现,互联网行业巨头如谷歌、Meta、微软也投入了不少人员和精力在这条赛道上,但视频时长和质量一直徘徊不前。2023年最火的AI视频应用是Runway和Pika,它们都能根据文字生成4-6秒的视频,两家公司的创始人都把生成15秒视频作为今年的目标,可见提升AI视频时长是多么的困难。
但Sora的出现完全改变了这一切,一出手就建立了非常大的优势。一是视频时长,Sora可以生成60秒长视频,完全碾压已有的任何同种类型的产品;二是对“文字提示”的高度理解,还可以对简单的指令做到合理补充,并充满了合理的想象力;三是能在一个视频内实现多角度镜头,分镜切换既符合逻辑又十分流畅;四是体现了对真实世界的理解能力,Sora对于光影反射、物体运动、物体相互作用等细节处理得十分优秀,极大地提升了真实感。
除此之外,Sora已经对现实世界的物理规律具备了一定的理解能力。比如一段视频中,男人咬了一口汉堡包后,汉堡上出现了一个咬痕。虽然我们觉得这是理所当然的,但Sora能模拟出这种变化已经一种突破,表明该模型慢慢的开始理解物理规律,这是人工智能的一大进步。
之所以能取得如此令人震撼的突破,原因主要在于OpenAI的解题思路完全不同,其采用的Diffusion Transformer模型,可以说是珠联璧合的一次尝试。
Diffusion扩散模型是目前图像生成的主流方式,灵感来自于非平衡热力学。生成图像的过程中就像是把一滴墨水在水中扩散的过程进行倒放。扩散模型的训练过程包括前向扩散和反向扩散:前向扩散会逐步对一张真实的照片随机添加噪声,直到变成纯噪声图片;反向扩散是从纯噪声图片中去除噪声,逐步生成清晰的图像。通过反复迭代训练,模型就会逐渐学会怎么样更准确地从噪声中重建数据,生成质量慢慢的升高的图像。
但刚刚登场的Sora还是一个新手,表现称不上“完美”。我们大家可以从测试视频中看到一些明显不符合逻辑的bug,比如消失的人物、变形的动作、混乱的空间等。就像刚问世的chatGPT一样,难免有胡言乱语的毛病,这样一些问题会跟着时间的推移和机器学习的深入,得到必然的改善。
Sora过于逼真的视频表现带来了对伪造和传播虚假内容的忧虑,尤其是在图片生成领域的深度造假(Deepfake)问题还未解决的当下,AI生成视频更加难辨真伪。OpenAI也考虑到了这样一些方面的潜在风险,正在开发帮助检测误导性信息的工具,帮助人们标注视频是否是Sora生成的、何时生成的。另外,伦理对抗性测试也在紧锣密鼓地进行,避免AI成为极端暴力、犯罪、仇恨言论、侵权等问题的帮凶。
不管是好是坏,Sora都标志着AI视频浪潮即将出现,这股浪潮将颠覆包括影视、广告、游戏在内的整个创意产业。而在我们的目光所及之外,还有非常多无法预测的使用场景、创新和突破。未来不仅属于我们,也同样属于AI。