AI开年丢王炸！文生视频模型Sora问世，影视行业或迎巨震？

2024年02月20日 108202阅读

根据OpenAI官网介绍，使用Sora可以用文字指令生成长达1分钟的高清视频。视频可以具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

此次文生视频模型Sora足够震撼。业内人士认为，从长远角度来看，Sora将给广告业、电影预告片、短视频行业带来巨大的颠覆。

文生视频模型“Sora”问世

从OpenAI官网更新的48个视频demo来看，Sora不仅能够准确呈现细节，还能生成具有丰富情感的角色。

据OpenAI介绍，Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户提出的要求，还了解这些东西在物理世界中的存在方式。

这意味着，如果说GPT能够通过人类的语言来理解世界，那么Sora则能通过视频、图片等多模态数据来理解世界。

根据OpenAI的技术报告，Sora的强大得益于大量的数据、灵活的编码、优质的标注和Transformer+diffusion的架构。由于使用Transformer架构，Sora具有较强的扩展性。

业内人士分析称，此前这类模型对视频的处理往往会分解为时间域和空间域，用处理时间域的模型处理时间域，比如RNN、自回归模型等。但是，此次OpenAI直接把整个视频看做一个整体，一次性输入到diffusion模型中，让模型一次性生成出整个视频的每个细节。

影视行业或迎巨变

据了解，在OpenAI的Sora之前，谷歌曾在去年12月发布了一个全新的视频生成模型VideoPoet，能够执行包括文本到视频、图像到视频、视频风格化等操作。而此前一夜爆红的文生视频软件Pika也掀起了AI视频应用的热潮。

对于此次的Sora问世，360集团创始人、董事长周鸿�t表示，这意味着AGI实现将从10年缩短至1年。具备文生视频功能的视频类生成式AI，能够有效降低创作者的创作门槛。

国海证券在研报中指出，根据《AIGC/AI生成内容产业展望报告》，视频生成将成为近期跨模态生成领域的中高潜力场景，其背后逻辑是不同技术带来的主流内容形式的变化。

英伟达高级科学家Jim Fan认为，2022年是影像之年，2023是声波之年，而2024是视频之年。

大“网红”马斯克也对OpenAI发布的新模型发表了评价。针对推特网友转发的Sora演示视频，配文声称“gg Pixar”，马斯克在推文下方留言表示，“gg humans”。

另有一名网友谈及OpenAI的新模型，并将话题引向影视行业，“电影行业肯定会对这种技术做出严厉反应，希望法规不会失控”、“与大多数类型AI创作不同，生成式艺术不会抑制人类的精神”。

马斯克针对该推文也做出回应，“由人工智能增强的人类，将会在未来几年之内创作出最杰出的作品”。

能否带来颠覆性影响？

从OpenAI官网公布的视频实例来看，Sora能够精准呈现视频细节。

比如，某个Prompt的提示词是美丽、白雪皑皑的东京、城市熙熙攘攘。镜头穿过城市街道，跟随几个人享受美丽的雪天，在附近的摊位上购物。

在Sora生成的视频里，镜头从俯视白雪覆盖的东京，慢慢推进到两个行人手牵手在街道上行走，街旁的樱花树和商铺的画面均得以呈现。

有业内人士表示，这对电影、动漫、小说、游戏等行业具有深远影响。不过也有视频剪辑从业人员泼冷水，“大规模应用后能否催生更多好作品尚不清楚，但制造视频垃圾的速度一定会呈现指数级增长”。

某互联网从业人员表示，Sora确实很牛，但如果认为三年后就没人拍视频了，认为抖音Tiktok很快会被颠覆，那还是为时过早。

如果想借助Sora将视频行业变成“人纯粹消费机器工业化内容”的局面，这恐怕没戏。如果借助新技术，让人与人之间产生新的连接，激发新的创作产能，这是有戏的。同时，需要尊重行业规律，通过技术迭代生态，而不是直接把技术丢给用户。