技术狂潮?颠覆认知?全网热议的Sora到底是什么?发表时间:2024-02-20 16:10 Sora的诞生是一个历史性的里程碑,在视觉领域实现了与大语言模型类似的突破。毫无疑问,视觉生成领域将有一次大的技术和商业革命。 什么是SORA? Sora是一个AI视频模型,使用者用文字描述需求,Sora就能生成一个以假乱真的AI原创视频。 在Open AI官网给出的案例中,提示词如下: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. 翻译成中文即: 一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着一件黑色的皮夹克,一件红色的长裙,一双黑色的靴子,还带着一个黑色的钱包。她戴着太阳镜,涂着红色的口红。她自信而随意地走着。街道是潮湿和反光的,创造了一个五颜六色的灯的镜面效果。许多行人走来走去。 在Sora根据以上文字生成的1分钟视频中,人物脸上的雀斑和瑕疵,路面积水中倒影随镜头的移动,以及人物的步态、动作,都如此自然,颠覆了大众以往对AI生成视频的认知。 目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。很多大受震撼的网友纷纷留言表示:现实,不存在了。 相比原有技术,Sora有哪些提升? 1. 将视频时长从当前的5-15秒提升到了1分钟,完全可以应对短视频创作需求。并且从OpenAI发表的文章看,如果有需要,进行超过1分钟的创作也没有问题。 2. 能够生成多机位镜头,并且各个视角具有角色和视觉风格的一致性。 3. 不仅可以用文字生成视频,还支持视频到视频的编辑,或将图片转换成动态视频,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。 4. Sora是扩散模型,更是扩散+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。 为什么只有Open AI做出来了? OpenAI 有 GPT 和 DALL·E 的成功经验,在以往的技术范式之上,他们实现了新进展:使AI不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。 简单来说,Sora在视频训练中不仅在学习里面的画面、像素点,还在学习视频里那个世界的“物理规律”。 比如,你咬一口食物,食物就会出现一个咬痕,这就是我们所处世界的一个“物理规律”。如果咬完之后食物毫无变化,那就不符合“物理规律”。 在视频学习时,大部分的视频软件只处理食物和嘴在一起的“具体画面”,而不理解“物理规律”,但Sora记住的不只是画面,还有“咬就会有痕”这一“物理规律”。以后生成视频时,一旦有“咬”这个动作,Sora就知道下面该出现咬痕了。 类似的细节叠加,让Sora生成的视频更加接近真实。 Sora会颠覆影视行业吗? 虽然Sora重新定义了AI视频创作,但现在的Sora还只是个baby,对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。 Sora的生成案例中也有不少离谱的作品,包括开头女郎漫步东京街头的视频中,人物动作也存在迈步时左右腿错乱、左腿连续迈步两次等错误。 目前,Sora所生成的视频内容得到影视行业人士的普遍认可。有人表示,Sora视频中的细节、光影、色彩都较精细,导演可用其制作拍摄前期的简单镜头样板。但如果涉及镜头运动角度,与更精细内容调控——如色彩、光影、道具、人物动作等,目前AI还不能达到令人满意的程度。 有纪录片从业者表示,目前Sora还不能直接用于影视作品,因为精细度还不够。但已经足够震撼,完全可以用于前期开发,尤其是概念设计。 一位宣传片从业者表示,Sora 只发布了部分作品,且未开放公测,能不能用来代替剪辑不确定。无论如何,这些工具最后都是为人服务的,人的个人感情复杂性的表达不可替代。 相比颠覆影视行业,以Sora为代表的文字视频模型有更远大的目标——通用人工智能(AGI),即一个通用的“物理世界模拟器”,为真实世界建模。360集团创始人、董事长周鸿祎2月16日在微博发文表示,Sora面世意味着AGI实现将从10年缩短到1年。 Sora的发展能够带动哪些产业? 从应用上来看,短期内,Sora及同类产品可大大提升短视频产品生产力,对于业态更加复杂的长视频和游戏,现阶段或以提供美术灵感支持为主。中长期来看,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC(用户生产内容)将借助AI工具逐步替代PGC。从相关受益细分行业来看,包括但不限于视频美化、广告营销、短剧、游戏、办公软件等。 从技术支持上看,跨时代文生视频模型所需token(文本处理最小单位)数量相较于文本及图片模型的推理,有望成数量级增长,判断Sora将刺激推理算力需求将持续上升。此外,推理端token增加、算力需求的增长,也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。 |