Address
304 North Cardinal St.
Dorchester Center, MA 02124
Work Hours
Monday to Friday: 7AM - 7PM
Weekend: 10AM - 5PM
探索 OpenAI 的 Sora:一种突破性的文本到视频 AI,将在 2024 年彻底改变多模态 AI。探索其功能、创新和潜在影响。
OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成式 AI 模型看起来令人印象深刻,为许多行业带来了巨大的潜力。在这里,我们将探讨 OpenAI 的 Sora 是什么、它是如何工作的、一些潜在的用例以及未来会怎样。
Sora 是 OpenAI 的文本到视频生成式 AI 模型。这意味着您编写一个文本提示,它会创建一个与提示描述相匹配的视频。下面是 OpenAI 网站的一个示例:
提示:一位时尚女士走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
OpenAI 和首席执行官 Sam Altman 一直在忙于分享 Sora 的实际应用示例。我们已经看到了一系列不同的风格和示例,包括:
提示:一个华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼类和海洋生物。
提示:动画场景有一个特写镜头,一个毛茸茸的短怪物跪在一根融化的红蜡烛旁边。艺术风格是3D和逼真的,重点是照明和纹理。这幅画的情绪是一种惊奇和好奇,因为怪物睁大眼睛和张开嘴巴凝视着火焰。它的姿势和表情传达出一种纯真和俏皮的感觉,仿佛它是第一次探索周围的世界。暖色调和戏剧性照明的使用进一步增强了图像的舒适氛围。
提示:美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。
提示:穿越未来主义城市的街头之旅,与自然和谐相处,同时又与赛博朋克/高科技融为一体。这个城市应该是干净的,有先进的未来派电车,美丽的喷泉,到处都是巨大的全息图,到处都是机器人。让视频是来自未来的人类导游,向一群外星外星人展示人类能够建造的最酷、最光荣的城市。
提示:两只金毛猎犬在山顶上播客。
提示:在海洋上与不同动物的自行车比赛,运动员骑着无人机相机观看自行车。
像 DALL·E 3、StableDiffusion 和 Midjourney,Sora 是一个扩散模型。这意味着它从视频中的每一帧开始,由静态噪声组成,并使用机器学习逐渐将图像转换为类似于提示中描述的内容。Sora 视频最长可达 60 秒。
Sora 的一个创新领域是它同时考虑多个视频帧,这解决了对象在移入和移出视野时保持一致的问题。在下面的视频中,请注意袋鼠的手从镜头中移出几次,当它返回时,这只手看起来和以前一样。
提示:卡通袋鼠迪斯科舞厅跳舞。
Sora 将扩散模型的使用与 GPT 使用的 transformer 架构相结合。
当将这两种模型类型结合起来时,Jack Qiao 指出,“扩散模型在生成低级纹理方面很出色,但在全局构图方面很差,而 Transformer 则存在相反的问题。也就是说,您需要一个类似 GPT 的 transformer 模型来确定视频帧的高级布局,并使用扩散模型来创建细节。
在一篇关于 Sora 实现的技术文章中,OpenAI 对这种组合的工作原理进行了高级描述。在扩散模型中,图像被分解成更小的矩形“斑块”。对于视频,这些补丁是三维的,因为它们会随着时间的推移而持续存在。在大型语言模型中,补丁可以被视为“标记”的等价物:它们不是句子的组成部分,而是一组图像的组成部分。模型的转换器部分组织面片,模型的扩散部分为每个面片生成内容。
这种混合架构的另一个怪癖是,为了使视频生成在计算上可行,创建补丁的过程使用降维步骤,因此不需要对每一帧的每个像素进行计算。
为了忠实地捕捉用户提示的本质,Sora 使用了一种重编字幕技术,该技术在 DALL·E 3.这意味着在创建任何视频之前,GPT 用于重写用户提示以包含更多细节。从本质上讲,它是一种自动提示工程形式。
OpenAI 指出了当前版本 Sora 的几个局限性。Sora对物理学没有隐含的理解,因此“现实世界”的物理规则可能并不总是得到遵守。
这方面的一个例子是该模型不理解因果关系。例如,在下面的篮球架爆炸视频中,篮筐爆炸后,网似乎恢复了。
提示:篮球穿过篮筐然后爆炸。
同样,物体的空间位置可能会不自然地移动。在下面的狼崽视频中,动物会自发出现,狼的位置有时会重叠。
提示:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围环绕着草地。幼崽们奔跑跳跃,互相追逐,互相啃咬,玩耍。
Sora的可靠性目前尚不清楚。OpenAI 的所有示例质量都非常高,但目前尚不清楚涉及多少樱桃采摘。使用文本到图像工具时,通常会创建十个或二十个图像,然后选择最好的图像。目前尚不清楚 OpenAI 团队生成了多少图像才能获得其公告文章中显示的视频。如果您需要生成数百或数千个视频才能获得单个可用视频,那将是采用的障碍。要回答这个问题,我们必须等到该工具广泛可用。
Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中缺失的帧。
就像文本到图像生成式 AI 工具使在没有技术图像编辑专业知识的情况下创建图像变得非常容易一样,Sora 承诺在没有图像编辑经验的情况下创建视频变得更加容易。以下是一些关键用例。
Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台创建短视频。难以拍摄或不可能拍摄的内容特别适合。例如,2056 年拉各斯的这个场景在技术上很难为社交帖子拍摄,但使用 Sora 很容易创建。
提示:一个美丽的自制视频,展示了 2056 年尼日利亚拉各斯的人民。用手机相机拍摄。
传统上,制作广告、促销视频和产品演示的成本很高。像 Sora 这样的文本到视频的 AI 工具有望使这个过程变得更便宜。在下面的例子中,想要推广加利福尼亚州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头,或者他们可以使用人工智能,从而节省时间和金钱。
提示:海浪拍打大苏尔加雷角海滩崎岖悬崖的无人机视图。汹涌澎湃的蓝色海水掀起白色的波浪,而夕阳的金色光芒照亮了岩石海岸。远处有一个带灯塔的小岛,绿色的灌木丛覆盖着悬崖的边缘。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖的边缘突出在海面上。这张照片捕捉到了海岸的原始美景和太平洋海岸公路崎岖的景观。
即使最终产品中没有使用 AI 视频,它也有助于快速展示想法。电影制作人可以在拍摄场景之前使用 AI 制作场景模型,设计师可以在构建产品之前创建产品视频。在下面的例子中,一家玩具公司可以生成一个新的海盗船玩具的人工智能模型,然后再承诺大规模创建它们。
提示:两艘海盗船在一杯咖啡中航行时相互搏斗的逼真特写视频。
合成数据通常用于隐私或可行性问题阻止使用真实数据的情况。对于数字数据,常见用例是财务数据和个人身份信息。对这些数据集的访问必须受到严格控制,但您可以创建具有类似属性的合成数据以向公众提供。
合成视频数据的一种用途是用于训练计算机视觉系统。正如我在 2022 年所写的那样,美国空军使用合成数据来提高其无人机计算机视觉系统的性能,以在夜间和恶劣天气下探测建筑物和车辆。像 Sora 这样的工具使这个过程更便宜,更容易被更广泛的受众所接受。
该产品是新的,因此尚未完全描述风险,但它们可能与文本到图像模型的风险相似。
如果没有护栏,Sora 就有能力生成令人讨厌或不适当的内容,包括包含暴力、血腥、色情内容、对人群的贬损性描述和其他仇恨图像的视频,以及宣传或美化非法活动。
不当内容的构成因用户而异(考虑使用Sora的儿童与成人)和视频生成的背景(关于烟花危险的视频警告很容易以教育方式变得血腥)。
根据 OpenAI 分享的示例视频,Sora 的优势之一是它能够创建现实生活中不存在的奇幻场景。这种优势也使得创建“深度伪造”视频成为可能,其中真实的人或情况被更改为不真实的东西。
当这些内容被呈现为真相时,无论是无意的(错误信息)还是故意的(虚假信息),都可能导致问题。
正如DigiDiplomacy首席人工智能治理和道德官Eske Montoya Martinez van Egerschot所写的那样,“人工智能正在重塑竞选策略、选民参与和选举诚信的结构。
令人信服但虚假的政客或政客对手的人工智能视频有能力“战略性地传播虚假叙述,并以骚扰为目标,旨在破坏对公共机构的信心,并助长对各个国家和人群的敌意”。
在这一年里,从台湾到印度再到美国,有许多重要的选举,这产生了广泛的后果。
生成式 AI 模型的输出高度依赖于其训练的数据。这意味着训练数据中的文化偏见或刻板印象可能会导致生成的视频中出现相同的问题。正如 Joy Buolamwini 在 DataFramed 的“为算法正义而战”一集中所讨论的那样,图像中的偏见可能会对招聘和警务产生严重后果。
Sora目前仅供“红队”研究人员使用。也就是说,专家的任务是试图识别模型的问题。例如,他们将尝试生成具有上一节中确定的一些风险的内容,以便 OpenAI 可以在向公众发布 Sora 之前缓解问题。
OpenAI 尚未指定 Sora 的公开发布日期,但很可能是 2024 年的某个时候。
Sora 有几种备受瞩目的替代品,允许用户从文本创建视频内容。这些包括:
还有几个较小的竞争对手:
型号/平台 | 开发商/公司 | 平台可用性 | 目标受众 | 主要特点 |
跑道Gen-2 | 跑道 | 网络, 移动 | 广泛(一般用途) | 备受瞩目的文字转视频AI,用户友好 |
吕米埃 | 谷歌 | PyTorch 扩展 | 开发人员、研究人员 | 为 PyTorch 用户生成高级文本到视频 |
制作视频 | 元 | PyTorch 扩展 | 创作者、研究人员 | 从文本生成高质量的视频 |
皮克托里 | 皮克托里 | 蹼 | 内容营销人员、教育工作者 | 简化文本到视频的转换,实现引人入胜的叙述 |
木翼 | 木翼 | 蹼 | 社交媒体营销人员、休闲创作者 | 从文本创建视频的平台 |
合成 | 合成 | 蹼 | 企业、教育工作者 | 基于 AI 的虚拟形象主导的文本视频演示 |
恒根 | 恒根 | 蹼 | 营销人员、教育工作者 | 用于销售和营销的视频生成 |
史蒂夫·艾 | 史蒂夫·艾 | 蹼 | 企业、个人 | 为各种应用程序创建视频和动画 |
埃莱 | 埃莱 | 蹼 | 在线学习、企业培训 | 将教学内容转换为视频 |
毫无疑问,Sora是开创性的。同样明显的是,这种生成模型的潜力是巨大的。Sora对人工智能行业和世界有何影响?当然,我们只能进行有根据的猜测。但是,以下是 Sora 可能会改变事物的一些方式,无论好坏。
让我们先来看看 Sora 在向公众推出(可能是分阶段)之后可能看到的直接、短期影响。
在上一节中,我们已经探讨了 Sora 的一些潜在用例。如果 Sora 发布供公众使用,其中许多可能会很快被采用。这可能包括:
当然,正如我们之前所强调的,这种技术会带来一系列潜在的负面影响,我们必须驾驭它们。以下是我们必须警惕的一些风险:
我们已经提到了 Sora 的几个替代品,但我们可以预期这个列表将在 2024 年及以后显着增长。正如我们在 ChatGPT 上看到的那样,市场上有越来越多的替代品争夺职位,并且许多项目都在迭代开源 LLM。
Sora很可能是继续推动生成式AI领域创新和竞争的工具。无论是通过特定用途、微调的模型还是直接竞争的专有技术,该行业的许多大公司都可能希望在文本到视频的行动中分一杯羹。
随着 OpenAI 的 Sora 公开发布后尘埃落定,我们将开始看到更长期的未来。随着各行各业的专业人士开始使用该工具,Sora 将不可避免地有一些改变游戏规则的用途。让我们推测一下其中一些可能是什么:
Sora(或类似工具)有可能成为多个行业的中流砥柱:
我们已经谈到了虚拟现实(VR)和增强现实(AR),但当与这些媒介相结合时,Sora有可能彻底改变我们与数字内容的交互方式。如果Sora的未来迭代能够在几秒钟内生成高质量的虚拟世界,并利用生成文本和音频来填充看似真实的虚拟角色,那么这就提出了一个严重的问题,即在未来导航数字世界意味着什么。
总之,OpenAI 的 Sora 模型有望在生成视频质量方面实现飞跃。即将公开发布的版本及其在各个领域的潜在应用备受期待。如果您渴望开始进入生成式 AI 领域,我们的 AI 基础知识技能课程将帮助您快速掌握机器学习、深度学习、NLP、生成模型等。