2024年2月16日,OpenAI在某社交平台上发布了一条消息,隆重介绍了自己的新文本转视频模型——Sora。这是OpenAI首个AI视频模型,刚发布就创下历史,堪称「世界模型」!「现实不存在了」这是Sora发布不久后,被全网刷屏最多的话。 Sora到底有多可怕?

Sora可生成最长60秒的视频,并且在这个过程中,还能够自己切换镜头,甚至给出特写。

以下是视频提示词译文及Sora直接根据提示词英文原文生成的“作品”。

一位时尚的女士走在亮着霓虹灯和广告牌的东京街头。她穿着黑色皮夹克、红色长裙和黑色靴子,手提一只黑色包包。她戴着太阳镜,涂着红色口红。她走路既自信又随意。街道潮湿,地面上的水能够像镜面一样反射色彩斑斓的灯光,路上有很多行人来来往往。
开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

视频来源:OpenAI官网

若非是在Sora介绍下看到这个视频,想必大部分的人都会以为这是由专业团队拍摄剪辑出来的视频吧。在OpenAI的社区中,也出现一些评论,表示被Sora的能力所震撼到,担心Sora会抢走动画师的饭碗。

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

▲已由机器翻译,来源:community.openai.com

还有一些网友担忧这样逼真的技术会被用来伪造视频,甚至被用来在法庭上作伪证。

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

▲已由机器翻译,来源:X

其实我在看到视频效果后,也大受震撼。以前:我只相信自己的眼睛。现在:什么是真的?你说什么是真的?!

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

Sora到底都有什么能力?是否真的危及到了一些行业人员的饭碗?它与其他模型有何不同?

▼Sora与市面上其他视频模型对比

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

不仅如此,Sora现在可支持人工过程(数字世界模拟),能力项可以说是将市面上其他视频模型压着打了。

Sora能 力 概 述

支持生成1分钟左右视频

在OpenAI发布Sora之前,业界基于大模型生成视频的主要平台有Pika、Runway Gen2等,但是这两个平台视频生成默认都是几秒中,即便通过视频扩展等手段,最多也只能生成十几秒的视频。而OpenAI的Sora可以生成最多1分钟的视频。并且视频生成的结果非常连贯和清晰。

支持向前以及向后扩展视频

这是OpenAI Sora另一个与此前视频生成平台有巨大差异的地方。基于已有视频继续扩展在Runway Gen2、Pika等平台都有。

但是现有平台的视频扩展通常是在当前视频的基础上继续向前生成几秒的视频。但是,OpenAI Sora可以在视频的基础上向前或者向后扩展。

例如给定一个视频,OpenAI Sora可以为该视频创造不同的开头,最后都是以该视频结尾,过程非常连续。因此,Sora甚至可以在一个视频上同时向前和向后扩展,以产生一个无限连续的循环视频。

支持生成更加自由尺寸的视频

根据OpenAI的Sora技术报告,Sora模型可以采样宽屏1920×1080视频、竖屏1080×1920视频以及介于两者之间的所有尺寸视频。

这意味着它可以生成更加自由的视频尺寸。而此前的视频平台,如Runway Gen2,文本生成视频的方式只能选择16:9, 9:16, 1:1, 4:3, 3:4, 以及 21:9的长宽比。至于清晰度,则默认1408 × 768px。

支持多个视频的连接

OpenAI Sora的能耐还不仅仅是“文生视频”。他还能把两个视频,揉捏在一起,实现无缝过渡。这也是Sora另一个与众不同的地方。

OpenAI发布了一份Sora的技术报告,在报告中提到“Sora是一个扩散模型”。

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

来源:OpenAI官网

此前,OpenAI的研究者一直在探索的一个难题就是,究竟怎样在视频数据上,应用大规模训练的生成模型?

为此,研究者同时对对持续时间、分辨率和宽高比各不相同的视频和图片进行了训练,而这一过程正是基于文本条件的扩散模型。

他们采用了Transformer架构,这种架构能够处理视频和图片中时空片段的潜代码。随之诞生的最强大模型Sora,也就具备了生成一分钟高质量视频的能力。

OpenAI研究者发现了令人惊喜的一点:扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。顺着这个方向发展,或许LLM真的能够成为世界模型!

Sora 不 足 之 处

虽然Sora展现出了强大的能力,但现阶段它还不够完美。

在Sora的技术报告中也承认,现阶段Sora生成的视频存在一些缺陷。比如,它虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确。

视频中杯子还未破碎,液体就已流出,很明显能看出不是“真实事件”

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

模拟吃食物的过程,也并不总是能准确反映物体

在网站首页上,OpenAI详细列出了模型的常见问题,比如在长视频中出现的逻辑不连贯,或者物体会无缘无故地出现。

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

最后,OpenAI表示,Sora目前所展现出的能力,证明了不断提升视频模式的规模是一个令人振奋的方向。沿这个方向走下去,或许在未来的某一天,世界模型真的应运而生。

关于Open AI发布的Sora,你有何看法?欢迎将你的想法留言给我们!

在这里向大家宣传一个好消息!当你还在为昂贵的显卡价格发愁的时候,算力云平台官宣了超低价活动!在2月底之前,全平台显卡享受75折优惠,包月套餐优惠力度最大,还为显卡发愁的用户赶紧来看看!

开场即炸裂!被全网刷屏的OpenAI Sora有多可怕? 开场即炸裂!被全网刷屏的OpenAI Sora有多可怕?

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。