AI 新风暴：OpenAI 的 Sora 震撼登场

一、Sora 是什么

Sora 是 OpenAI 在 Day 3 发布的视频生成模型。它能够通过文本直接生成最多 20 秒、最高 1080P 的视频，同时支持文本 + 图片 / 视频生成特定视频内容。

Sora 作为一款强大的视频生成工具，具有诸多显著特点。它可以生成高清晰度的视频，分辨率高达 1080P，并且能够根据用户的文本提示，生成具有复杂场景的视频内容，包括多个角色、特定类型的运动以及精确的主题和背景细节。此外，Sora 还支持文本 + 图片或视频的输入方式，能够根据现有的图像或视频生成新的视频内容，具有很强的灵活性和创造性。

Sora 的出现，标志着人工智能在视频生成领域的重大突破。它不仅为创意人士提供了强大的工具，也为影视制作、广告等行业带来了新的机遇和挑战。然而，Sora 也存在一些局限性。目前，它生成的视频最长只能达到 20 秒，这在一定程度上限制了其应用场景。此外，Sora 在处理某些细节时可能会出错，例如混淆物体的左右方向，也无法完全理解复杂的因果关系，或在长时间跨度内保持故事线的高度一致连贯。

尽管如此，Sora 的发展前景依然广阔。随着技术的不断进步，相信 Sora 在未来会不断完善，为用户提供更加优质、高效的视频生成服务。

二、Sora 的功能亮点

（一）视频生成更加可控

Sora 允许用户输入文本或上传图片文件来生成视频，并且在生成过程中，用户可以根据自身需求选择画幅比例、分辨率、时长和风格等。例如，用户可以选择 16:9 的横屏比例，以适应大多数电脑和电视屏幕；也可以选择 1:1 的正方形比例，适合在社交媒体平台上展示；或者选择 9:16 的竖屏比例，以满足手机用户的观看习惯。在分辨率方面，Sora 能够生成高达 1080P 的高清视频，为用户提供清晰、细腻的视觉体验。同时，用户还可以根据自己的创意需求，选择不同的时长，从几秒钟到 20 秒不等，以制作出简洁明了或富有情节的视频内容。此外，Sora 还提供了多种风格选项，如写实、卡通、科幻等，让用户能够轻松打造出符合自己创意的独特视频。

（二）故事板模式支持自由创作

Sora 的 Storyboard 模式为用户提供了一种全新的创意工具。在这个模式下，用户可以按照时间戳选择各帧动画要生成的内容，并以此串联生成视频内容。就像电影导演绘制分镜脚本一样，用户可以通过设计和调整每张故事卡（视频帧），让 Sora 自动将它们补成一段流畅的故事。例如，用户可以先设想一个 “美丽的白鹤站在小溪中，拥有一条黄色的尾巴” 的场景作为第一个分镜，然后设置 “鹤将头探入水中，并捉出一条鱼” 作为第二个分镜。在两者之间设置大约五秒钟的间隔，给 Sora 足够的发挥空间，将两组动作连起来，最终生成一个完整的视频镜头。更为奇妙的是，故事板上的创作要素不仅限于故事卡，还可以是直接的图片、视频。用户可以将任意的图片、视频拉到故事板上，结合故事卡进行创作。比如，将一段白鹤的视频切下来导入故事板进行剪切，为视频的前方和后方留出继续创作的间隙，从而可以添加新的开头和结尾，实现无限创作。

（三）更多视频编辑模式

Remix：Sora 的 Remix 功能允许用户在生成视频的基础上对元素进行修改替换。比如，如果用户对某个视频中的背景不满意，可以通过 Remix 功能轻松更换背景；或者想要改变视频中的某个物体的颜色、形状等，也可以通过这个功能实现。无论是大的更改，还是希望背景中多一些风或者沙等小细节的调整，都可以通过描述希望视频怎样更改，让 Sora 来完成后续的工作。
Re-cut：在故事板中，用户可以使用 Re-cut 功能对视频进行精简或扩充。如果视频中有一些多余的片段，用户可以通过 Re-cut 将其剪切掉，使视频更加简洁；如果觉得视频内容不够丰富，也可以利用这个功能找到最佳的一帧再进行延展，为视频添加更多的情节和细节。
Blend：Blend 功能可以将另一视频中的元素嵌入到目标视频中。例如，用户可以将猛犸象和机器象混合，创造出独特的视觉效果。这就像在视频制作中使用特效一样，让用户能够轻松地将不同的视频元素融合在一起，创造出全新的视频内容。
Loop：Loop 功能可基于视频的任意部分创建流畅的循环。如果用户想要制作一个循环播放的视频片段，比如一段动画或者一个特效，就可以使用 Loop 功能。通过这个功能，用户可以将视频中的某个精彩瞬间无限循环播放，增强视频的吸引力和趣味性。

三、Sora 的订阅与适用范围

Sora 对拥有 OpenAI Plus 和 Pro 账户的用户开放，不同用户有不同的生成额度和限制。具体来说，ChatGPT Plus 订阅用户每月可生成 50 个低分辨率视频，单个视频时长最长 5 秒；而 ChatGPT Pro 订阅用户则能够无限制生成高分辨率视频，时长最长可达 20 秒，同时还拥有 500 次快速生成的额度（如果选择的分辨率更高，则次数更少）。

目前，Sora 已在美国及多数国家上线，但暂未对欧洲及英国地区开放。其支持的国家和地区包括阿尔巴尼亚、阿尔及利亚、安道尔、安哥拉、安提瓜和巴布达、阿根廷、亚美尼亚、澳大利亚、奥地利、阿塞拜疆、孟加拉国、巴巴多斯、比利时、伯利兹、贝宁、不丹、波斯尼亚和黑塞哥维那、博茨瓦纳、巴西、文莱、保加利亚、布基纳法索、佛得角、加拿大、智利、哥伦比亚、科摩罗、刚果（刚果 – 布拉柴维尔）、哥斯达黎加、科特迪瓦、克罗地亚、塞浦路斯、Czechia（捷克共和国）、丹麦、吉布提、多米尼克、多明尼加共和国、厄瓜多尔、萨尔瓦多、爱沙尼亚、斐济、芬兰、法国、加蓬、冈比亚、乔治亚州、德国、加纳、希腊、格林纳达、危地马拉、几内亚、几内亚比绍、圭亚那、海地、罗马教廷（梵蒂冈城）、洪都拉斯、匈牙利、冰岛、印度、印度尼西亚、伊拉克、爱尔兰、以色列、意大利、牙买加、日本、约旦、哈萨克斯坦、肯尼亚、基里巴斯、科威特、吉尔吉斯斯坦、拉脱维亚、黎巴嫩、莱索托、利比里亚、列支敦士登、立陶宛、卢森堡、马达加斯加、马拉维、马来西亚、马尔代夫、马里、马耳他、马绍尔群岛、毛里塔尼亚、毛里求斯、墨西哥、密克罗尼西亚、摩尔多瓦、摩纳哥、蒙古、黑山、摩洛哥、莫桑比克、缅甸、纳米比亚、瑙鲁、尼泊尔、荷兰、新西兰、尼加拉瓜、尼日尔、尼日利亚、北马其顿、挪威、阿曼、巴基斯坦、帕劳、巴勒斯坦、巴拿马、巴布亚新几内亚、巴拉圭、秘鲁、菲律宾、波兰、葡萄牙、卡塔尔、罗马尼亚、卢旺达、圣基茨和尼维斯、圣卢西亚、圣文森特和格林纳丁斯、萨摩亚、圣马力诺、圣多美和普林西比、塞内加尔、塞尔维亚、塞舌尔、塞拉利昂、新加坡、斯洛伐克、斯洛文尼亚、所罗门群岛、南非、韩国、西班牙、斯里兰卡、苏里南、瑞典、瑞士、台湾、坦桑尼亚、泰国、东帝汶（东帝汶）、多哥、汤加、特立尼达和多巴哥、突尼斯、火鸡、图瓦卢、乌干达、乌克兰（某些例外）、阿拉伯联合酋长国、英国、美国、乌拉圭、瓦努阿图、赞比亚等。

虽然 Sora 在全球许多国家上线，但由于欧洲的科技监管更严格，目前暂未对欧洲大部分地区开放。此外，Sora 在使用过程中也存在一些限制，例如生成的视频最长只能达到 20 秒，这在一定程度上限制了其应用场景。但随着技术的不断进步，相信 Sora 在未来会不断完善，适用范围也会越来越广泛。

四、Sora 的开发背后的努力

Sora 的研发是 OpenAI 的一项长期投入，凝聚了众多工程师的智慧与努力。自今年二月推出初版模型以来，OpenAI 对 Sora 进行了大规模优化，最终推出了性能更强、速度更快的升级版本 ——Sora Turbo。这款模型具备生成视频、图像动画、视频样式转换及时间延展等多种能力，为用户带来了全新的视频创作体验。

产品团队仅由 5 至 6 名工程师组成，却在数月内完成了从模型到产品的开发工作，展示了惊人的执行力。他们当中不乏像 Tim Brooks、William Peebles 和 Aditya Ramesh 这样的优秀人才。Tim Brooks 是 DALL-E 3 作者之一，GitHub 5.7k 项目 InstructPix2Pix 作者，在视频生成研究方面有着丰富的经验。William Peebles 和谢赛宁合作，搞出了 Sora 的技术基础之一 DiT（扩散 Transformer）。Aditya Ramesh 是 DALL-E 的创造者，主导了三代 DALL-E 的研究，如今又领导 Sora 团队。此外，团队中还有像 Li Jing、Yufei Guo、Will DePue 等优秀成员，他们共同为 Sora 的开发贡献了力量。

同时，OpenAI 在内容安全与滥用防范方面也投入了大量资源。采取了较为保守的初期策略，以平衡创造自由与内容安全。所有由 Sora 生成的视频都附带 C2PA 元数据，以标识视频来自 Sora，提供透明性并验证来源。还开发了一款内部搜索工具，利用生成内容的技术属性来帮助验证视频是否来自 Sora。此外，在上传图像和视频之前，OpenAI 会要求用户同意使用协议，承诺不上传 18 岁以下未成年的照片、色情或暴力内容、受版权保护的内容。一旦被发现上传违禁内容，账号会被关停。

虽然目前部署的 Sora 版本存在许多局限性，如常常生成不符合现实的物理效果，在处理长时间的复杂动作时会遇到困难等。但 OpenAI 仍在努力让这项技术对所有人都更加经济实惠，不断改进和完善 Sora，为用户提供更好的视频生成服务。

五、Sora 的局限性

目前部署的 Sora 版本存在许多局限性，常常生成不符合现实的物理效果，并且在处理长时间的复杂动作时会遇到困难。

例如，在模拟复杂场景的物理行为时，Sora 可能会出现一些问题。像在生成 “五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐” 的视频时，狼的数量会变化，一些狼会凭空出现或消失。此外，Sora 在处理空间细节时也可能出错，如将左右搞反，或在描述随时间变化的事件时出现精确度不足，例如无法精确遵循特定的摄像机机位轨迹等。

Sora 在生成视频中可能会出现不符合物理原理的场景，比如这个人正在反向跑步。这表明 Sora 在理解和模拟现实世界的物理规则方面还有待提高。同时，在处理长时间的复杂动作时，Sora 也面临着挑战。例如，对于一些需要长时间连续动作的场景，Sora 可能无法保持动作的连贯性和准确性。

尽管 Sora 在视频生成领域取得了重大突破，但这些局限性也限制了它的应用场景。OpenAI 正在努力改进 Sora，以解决这些问题，提高其生成视频的质量和准确性。未来，随着技术的不断进步，相信 Sora 会逐渐克服这些局限性，为用户提供更加优质的视频生成服务。