Address
304 North Cardinal St.
Dorchester Center, MA 02124

Work Hours
Monday to Friday: 7AM - 7PM
Weekend: 10AM - 5PM

什么是 Open AI 的 Sora?它是如何工作的,用例,替代方案等

首页 » Blog » 什么是 Open AI 的 Sora?它是如何工作的,用例,替代方案等

探索 OpenAI 的 Sora:一种突破性的文本到视频 AI,将在 2024 年彻底改变多模态 AI。探索其功能、创新和潜在影响。

OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成式 AI 模型看起来令人印象深刻,为许多行业带来了巨大的潜力。在这里,我们将探讨 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来会怎样。

什么是索拉?

Sora 是 OpenAI 的文本到视频生成式 AI 模型。这意味着您编写一个文本提示,它会创建一个与提示描述相匹配的视频。下面是 OpenAI 网站的一个示例:

什么是 Open AI 的 Sora?它是如何工作的,用例,替代方案等

提示:一位时尚女士走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

OpenAI Sora 的例子

OpenAI 和首席执行官 Sam Altman 一直在忙于分享 Sora 的实际应用示例。我们已经看到了一系列不同的风格和示例,包括:

Sora 动画示例

什么是 Open AI 的 Sora?它是如何工作的,用例,替代方案等

提示:一个华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼类和海洋生物。

提示:动画场景有一个特写镜头,一个毛茸茸的短怪物跪在一根融化的红蜡烛旁边。艺术风格是3D和逼真的,重点是照明和纹理。这幅画的情绪是一种惊奇和好奇,因为怪物睁大眼睛和张开嘴巴凝视着火焰。它的姿势和表情传达出一种纯真和俏皮的感觉,仿佛它是第一次探索周围的世界。暖色调和戏剧性照明的使用进一步增强了图像的舒适氛围。

Sora Cityscape 示例

什么是 Open AI 的 Sora?它是如何工作的,用例,替代方案等

提示:美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。

提示:穿越未来主义城市的街头之旅,与自然和谐相处,同时又与赛博朋克/高科技融为一体。这个城市应该是干净的,有先进的未来派电车,美丽的喷泉,到处都是巨大的全息图,到处都是机器人。让视频是来自未来的人类导游,向一群外星外星人展示人类能够建造的最酷、最光荣的城市。

Sora 动物示例

提示:两只金毛猎犬在山顶上播客。

提示:在海洋上与不同动物的自行车比赛,运动员骑着无人机相机观看自行车。

Sora是如何工作的?

像 DALL·E 3、StableDiffusion 和 Midjourney,Sora 是一个扩散模型。这意味着它从视频中的每一帧开始,由静态噪声组成,并使用机器学习逐渐将图像转换为类似于提示中描述的内容。Sora 视频最长可达 60 秒。

求解时间一致性

Sora 的一个创新领域是它同时考虑多个视频帧,这解决了对象在移入和移出视野时保持一致的问题。在下面的视频中,请注意袋鼠的手从镜头中移出几次,当它返回时,这只手看起来和以前一样。

提示:卡通袋鼠迪斯科舞厅跳舞。

结合扩散模型和变压器模型

Sora 将扩散模型的使用与 GPT 使用的 transformer 架构相结合。

当将这两种模型类型结合起来时,Jack Qiao 指出,“扩散模型在生成低级纹理方面很出色,但在全局构图方面很差,而 Transformer 则存在相反的问题。也就是说,您需要一个类似 GPT 的 transformer 模型来确定视频帧的高级布局,并使用扩散模型来创建细节。

一篇关于 Sora 实现的技术文章中,OpenAI 对这种组合的工作原理进行了高级描述。在扩散模型中,图像被分解成更小的矩形“斑块”。对于视频,这些补丁是三维的,因为它们会随着时间的推移而持续存在。在大型语言模型中,补丁可以被视为“标记”的等价物:它们不是句子的组成部分,而是一组图像的组成部分。模型的转换器部分组织面片,模型的扩散部分为每个面片生成内容。

这种混合架构的另一个怪癖是,为了使视频生成在计算上可行,创建补丁的过程使用降维步骤,因此不需要对每一帧的每个像素进行计算。

通过字幕重写提高视频的保真度

为了忠实地捕捉用户提示的本质,Sora 使用了一种重编字幕技术,该技术在 DALL·E 3.这意味着在创建任何视频之前,GPT 用于重写用户提示以包含更多细节。从本质上讲,它是一种自动提示工程形式。

Sora的局限性是什么?

OpenAI 指出了当前版本 Sora 的几个局限性。Sora对物理学没有隐含的理解,因此“现实世界”的物理规则可能并不总是得到遵守。

这方面的一个例子是该模型不理解因果关系。例如,在下面的篮球架爆炸视频中,篮筐爆炸后,网似乎恢复了。

提示:篮球穿过篮筐然后爆炸。

同样,物体的空间位置可能会不自然地移动。在下面的狼崽视频中,动物会自发出现,狼的位置有时会重叠。

提示:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围环绕着草地。幼崽们奔跑跳跃,互相追逐,互相啃咬,玩耍。

关于可靠性的悬而未决的问题

Sora的可靠性目前尚不清楚。OpenAI 的所有示例质量都非常高,但目前尚不清楚涉及多少樱桃采摘。使用文本到图像工具时,通常会创建十个或二十个图像,然后选择最好的图像。目前尚不清楚 OpenAI 团队生成了多少图像才能获得其公告文章中显示的视频。如果您需要生成数百或数千个视频才能获得单个可用视频,那将是采用的障碍。要回答这个问题,我们必须等到该工具广泛可用。

Sora有哪些用例?

Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中缺失的帧。

就像文本到图像生成式 AI 工具使在没有技术图像编辑专业知识的情况下创建图像变得非常容易一样,Sora 承诺在没有图像编辑经验的情况下创建视频变得更加容易。以下是一些关键用例。

社交媒体

Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台创建短视频。难以拍摄或不可能拍摄的内容特别适合。例如,2056 年拉各斯的这个场景在技术上很难为社交帖子拍摄,但使用 Sora 很容易创建。

提示:一个美丽的自制视频,展示了 2056 年尼日利亚拉各斯的人民。用手机相机拍摄。

广告和营销

传统上,制作广告、促销视频和产品演示的成本很高。像 Sora 这样的文本到视频的 AI 工具有望使这个过程变得更便宜。在下面的例子中,想要推广加利福尼亚州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头,或者他们可以使用人工智能,从而节省时间和金钱。

提示:海浪拍打大苏尔加雷角海滩崎岖悬崖的无人机视图。汹涌澎湃的蓝色海水掀起白色的波浪,而夕阳的金色光芒照亮了岩石海岸。远处有一个带灯塔的小岛,绿色的灌木丛覆盖着悬崖的边缘。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖的边缘突出在海面上。这张照片捕捉到了海岸的原始美景和太平洋海岸公路崎岖的景观。

原型设计和概念可视化

即使最终产品中没有使用 AI 视频,它也有助于快速展示想法。电影制作人可以在拍摄场景之前使用 AI 制作场景模型,设计师可以在构建产品之前创建产品视频。在下面的例子中,一家玩具公司可以生成一个新的海盗船玩具的人工智能模型,然后再承诺大规模创建它们。

提示:两艘海盗船在一杯咖啡中航行时相互搏斗的逼真特写视频。

合成数据生成

合成数据通常用于隐私或可行性问题阻止使用真实数据的情况。对于数字数据,常见用例是财务数据和个人身份信息。对这些数据集的访问必须受到严格控制,但您可以创建具有类似属性的合成数据以向公众提供。

合成视频数据的一种用途是用于训练计算机视觉系统。正如我在 2022 年所写的那样,美国空军使用合成数据来提高其无人机计算机视觉系统的性能,以在夜间和恶劣天气下探测建筑物和车辆。像 Sora 这样的工具使这个过程更便宜,更容易被更广泛的受众所接受。

Sora有什么风险?

该产品是新的,因此尚未完全描述风险,但它们可能与文本到图像模型的风险相似。

生成有害内容

如果没有护栏,Sora 就有能力生成令人讨厌或不适当的内容,包括包含暴力、血腥、色情内容、对人群的贬损性描述和其他仇恨图像的视频,以及宣传或美化非法活动。

不当内容的构成因用户而异(考虑使用Sora的儿童与成人)和视频生成的背景(关于烟花危险的视频警告很容易以教育方式变得血腥)。

错误信息和虚假信息

根据 OpenAI 分享的示例视频,Sora 的优势之一是它能够创建现实生活中不存在的奇幻场景。这种优势也使得创建“深度伪造”视频成为可能,其中真实的人或情况被更改为不真实的东西。

当这些内容被呈现为真相时,无论是无意的(错误信息)还是故意的(虚假信息),都可能导致问题。

正如DigiDiplomacy首席人工智能治理和道德官Eske Montoya Martinez van Egerschot所写的那样,“人工智能正在重塑竞选策略、选民参与和选举诚信的结构。

令人信服但虚假的政客或政客对手的人工智能视频有能力“战略性地传播虚假叙述,并以骚扰为目标,旨在破坏对公共机构的信心,并助长对各个国家和人群的敌意”。

在这一年里,从台湾到印度再到美国,有许多重要的选举,这产生了广泛的后果。

偏见和刻板印象

生成式 AI 模型的输出高度依赖于其训练的数据。这意味着训练数据中的文化偏见或刻板印象可能会导致生成的视频中出现相同的问题。正如 Joy Buolamwini 在 DataFramed 的“为算法正义而战”一集中所讨论的那样,图像中的偏见可能会对招聘和警务产生严重后果。

如何访问 Sora?

Sora目前仅供“红队”研究人员使用。也就是说,专家的任务是试图识别模型的问题。例如,他们将尝试生成具有上一节中确定的一些风险的内容,以便 OpenAI 可以在向公众发布 Sora 之前缓解问题。

OpenAI 尚未指定 Sora 的公开发布日期,但很可能是 2024 年的某个时候。

Sora的替代品有哪些?

Sora 有几种备受瞩目的替代品,允许用户从文本创建视频内容。这些包括:

  • 跑道-Gen-2。OpenAI Sora 最引人注目的替代品是 Runway Gen-2。与 Sora 一样,这是一个文本到视频的生成式 AI,目前可在网络和移动设备上使用。
  • 吕米埃。谷歌最近宣布了 Lumiere,它目前可作为 PyTorch 深度学习 Python 框架的扩展
  • 制作视频。Meta 在 2022 年宣布了 Make-a-Video;同样,这可以通过 PyTorch 扩展获得。

还有几个较小的竞争对手:

  • Pictory 简化了文本到视频内容的转换,通过其视频生成工具针对内容营销人员和教育工作者。
  • Kapwing 提供了一个从文本创建视频的在线平台,强调社交媒体营销人员和休闲创作者的易用性。
  • Synthesia 专注于从文本创建 AI 驱动的视频演示,为商业和教育目的提供可定制的头像主导视频。
  • HeyGen 旨在简化产品和内容营销、销售推广和教育的视频制作。
  • Steve AI 提供了一个 AI 平台,支持从提示到视频、脚本到视频以及音频到视频的视频和动画生成。
  • Elai 专注于电子学习和企业培训,提供一种解决方案,可以毫不费力地将教学内容转化为信息丰富的视频
型号/平台开发商/公司平台可用性目标受众主要特点
跑道Gen-2跑道网络, 移动广泛(一般用途)备受瞩目的文字转视频AI,用户友好
吕米埃谷歌PyTorch 扩展开发人员、研究人员为 PyTorch 用户生成高级文本到视频
制作视频PyTorch 扩展创作者、研究人员从文本生成高质量的视频
皮克托里皮克托里内容营销人员、教育工作者简化文本到视频的转换,实现引人入胜的叙述
木翼木翼社交媒体营销人员、休闲创作者从文本创建视频的平台
合成合成企业、教育工作者基于 AI 的虚拟形象主导的文本视频演示
恒根恒根营销人员、教育工作者用于销售和营销的视频生成
史蒂夫·艾史蒂夫·艾企业、个人为各种应用程序创建视频和动画
埃莱埃莱在线学习、企业培训将教学内容转换为视频

OpenAI Sora 对未来意味着什么?

毫无疑问,Sora是开创性的。同样明显的是,这种生成模型的潜力是巨大的。Sora对人工智能行业和世界有何影响?当然,我们只能进行有根据的猜测。但是,以下是 Sora 可能会改变事物的一些方式,无论好坏。

OpenAI Sora 的短期影响

让我们先来看看 Sora 在向公众推出(可能是分阶段)之后可能看到的直接、短期影响。

一波速胜

在上一节中,我们已经探讨了 Sora 的一些潜在用例。如果 Sora 发布供公众使用,其中许多可能会很快被采用。这可能包括:

  • 用于社交媒体和广告的短视频的激增。 期待 X(前身为 Twitter)、TikTok、LinkedIn 和其他公司的创作者通过 Sora 制作提高他们的内容质量。
  • 采用Sora进行原型设计。 无论是展示新产品还是展示拟议的建筑开发项目,Sora 都可以成为推销想法的常见场所。
  • 改进了数据故事讲述。 文本到视频的生成式人工智能可以为我们提供更生动的数据可视化、更好的模型模拟以及探索和呈现数据的交互式方式。也就是说,重要的是要看看 Sora 在这些类型的提示上的表现。
  • 更好的学习资源。 有了像Sora这样的工具,学习材料可以大大增强。复杂的概念可以变得栩栩如生,而更多的视觉学习者有机会获得更好的学习辅助工具。

风险雷区

当然,正如我们之前所强调的,这种技术会带来一系列潜在的负面影响,我们必须驾驭它们。以下是我们必须警惕的一些风险:

  • 错误信息和虚假信息的传播。总的来说,我们必须更加敏锐地辨别我们消费的内容,我们需要更好的工具来发现那些被制造或操纵的内容。这在选举年尤为重要。
  • 侵犯版权。我们需要注意如何使用我们的图像和肖像。可能需要立法和控制措施来防止我们的个人数据被以我们不同意的方式使用。随着粉丝们开始根据他们最喜欢的电影系列制作视频,这场辩论很可能会首先上演——也就是说,这里的个人风险也是巨大的。
  • 监管和道德挑战。 事实证明,生成式人工智能的进步已经很难让监管机构跟上,而Sora可能会加剧这个问题。我们必须在不影响个人自由或扼杀创新的情况下正确和公平地使用Sora。
  • 对技术的依赖。像Sora这样的工具可以被看作是许多人的捷径,而不是助手。人们可能会将其视为创造力的替代品,这可能会对许多行业和在其中工作的专业人士产生影响。

生成式视频成为下一个竞争前沿

我们已经提到了 Sora 的几个替代品,但我们可以预期这个列表将在 2024 年及以后显着增长。正如我们在 ChatGPT 上看到的那样,市场上有越来越多的替代品争夺职位,并且许多项目都在迭代开源 LLM。

Sora很可能是继续推动生成式AI领域创新和竞争的工具。无论是通过特定用途、微调的模型还是直接竞争的专有技术,该行业的许多大公司都可能希望在文本到视频的行动中分一杯羹。

OpenAI Sora 的长期影响

随着 OpenAI 的 Sora 公开发布后尘埃落定,我们将开始看到更长期的未来。随着各行各业的专业人士开始使用该工具,Sora 将不可避免地有一些改变游戏规则的用途。让我们推测一下其中一些可能是什么:

可以解锁高价值用例

Sora(或类似工具)有可能成为多个行业的中流砥柱:

  • 高级内容创建。我们可以将 Sora 视为一种工具,可以加速 VR 和 AR、视频游戏,甚至电视和电影等传统娱乐领域的制作。即使它不直接用于创建此类媒体,它也可以帮助原型和故事板创意。
  • 个性化娱乐。当然,我们可以看到一个例子,Sora创建和策划专门为用户量身定制的内容。根据个人的品味和偏好量身定制的互动和响应式媒体可能会出现。
  • 个性化教育。 同样,这种高度个性化的内容可以在教育领域找到归宿,帮助学生以最适合他们需求的方式学习。
  • 实时视频编辑。视频内容可以实时编辑或重新制作,以适应不同的观众,根据观众的偏好或反馈调整语气、复杂性甚至叙事等方面。

物理世界和数字世界之间的界限开始模糊

我们已经谈到了虚拟现实(VR)和增强现实(AR),但当与这些媒介相结合时,Sora有可能彻底改变我们与数字内容的交互方式。如果Sora的未来迭代能够在几秒钟内生成高质量的虚拟世界,并利用生成文本和音频来填充看似真实的虚拟角色,那么这就提出了一个严重的问题,即在未来导航数字世界意味着什么。

结束语

总之,OpenAI 的 Sora 模型有望在生成视频质量方面实现飞跃。即将公开发布的版本及其在各个领域的潜在应用备受期待。如果您渴望开始进入生成式 AI 领域,我们的 AI 基础知识技能课程将帮助您快速掌握机器学习、深度学习、NLP、生成模型等。