一、Sora 是什么
Sora 是 OpenAI 在 Day 3 发布的视频生成模型。它能够通过文本直接生成最多 20 秒、最高 1080P 的视频,同时支持文本 + 图片 / 视频生成特定视频内容。
Sora 作为一款强大的视频生成工具,具有诸多显著特点。它可以生成高清晰度的视频,分辨率高达 1080P,并且能够根据用户的文本提示,生成具有复杂场景的视频内容,包括多个角色、特定类型的运动以及精确的主题和背景细节。此外,Sora 还支持文本 + 图片或视频的输入方式,能够根据现有的图像或视频生成新的视频内容,具有很强的灵活性和创造性。
Sora 的出现,标志着人工智能在视频生成领域的重大突破。它不仅为创意人士提供了强大的工具,也为影视制作、广告等行业带来了新的机遇和挑战。然而,Sora 也存在一些局限性。目前,它生成的视频最长只能达到 20 秒,这在一定程度上限制了其应用场景。此外,Sora 在处理某些细节时可能会出错,例如混淆物体的左右方向,也无法完全理解复杂的因果关系,或在长时间跨度内保持故事线的高度一致连贯。
尽管如此,Sora 的发展前景依然广阔。随着技术的不断进步,相信 Sora 在未来会不断完善,为用户提供更加优质、高效的视频生成服务。
二、Sora 的功能亮点
(一)视频生成更加可控
Sora 允许用户输入文本或上传图片文件来生成视频,并且在生成过程中,用户可以根据自身需求选择画幅比例、分辨率、时长和风格等。例如,用户可以选择 16:9 的横屏比例,以适应大多数电脑和电视屏幕;也可以选择 1:1 的正方形比例,适合在社交媒体平台上展示;或者选择 9:16 的竖屏比例,以满足手机用户的观看习惯。在分辨率方面,Sora 能够生成高达 1080P 的高清视频,为用户提供清晰、细腻的视觉体验。同时,用户还可以根据自己的创意需求,选择不同的时长,从几秒钟到 20 秒不等,以制作出简洁明了或富有情节的视频内容。此外,Sora 还提供了多种风格选项,如写实、卡通、科幻等,让用户能够轻松打造出符合自己创意的独特视频。
(二)故事板模式支持自由创作
Sora 的 Storyboard 模式为用户提供了一种全新的创意工具。在这个模式下,用户可以按照时间戳选择各帧动画要生成的内容,并以此串联生成视频内容。就像电影导演绘制分镜脚本一样,用户可以通过设计和调整每张故事卡(视频帧),让 Sora 自动将它们补成一段流畅的故事。例如,用户可以先设想一个 “美丽的白鹤站在小溪中,拥有一条黄色的尾巴” 的场景作为第一个分镜,然后设置 “鹤将头探入水中,并捉出一条鱼” 作为第二个分镜。在两者之间设置大约五秒钟的间隔,给 Sora 足够的发挥空间,将两组动作连起来,最终生成一个完整的视频镜头。更为奇妙的是,故事板上的创作要素不仅限于故事卡,还可以是直接的图片、视频。用户可以将任意的图片、视频拉到故事板上,结合故事卡进行创作。比如,将一段白鹤的视频切下来导入故事板进行剪切,为视频的前方和后方留出继续创作的间隙,从而可以添加新的开头和结尾,实现无限创作。
(三)更多视频编辑模式
- Remix:Sora 的 Remix 功能允许用户在生成视频的基础上对元素进行修改替换。比如,如果用户对某个视频中的背景不满意,可以通过 Remix 功能轻松更换背景;或者想要改变视频中的某个物体的颜色、形状等,也可以通过这个功能实现。无论是大的更改,还是希望背景中多一些风或者沙等小细节的调整,都可以通过描述希望视频怎样更改,让 Sora 来完成后续的工作。
- Re-cut:在故事板中,用户可以使用 Re-cut 功能对视频进行精简或扩充。如果视频中有一些多余的片段,用户可以通过 Re-cut 将其剪切掉,使视频更加简洁;如果觉得视频内容不够丰富,也可以利用这个功能找到最佳的一帧再进行延展,为视频添加更多的情节和细节。
- Blend:Blend 功能可以将另一视频中的元素嵌入到目标视频中。例如,用户可以将猛犸象和机器象混合,创造出独特的视觉效果。这就像在视频制作中使用特效一样,让用户能够轻松地将不同的视频元素融合在一起,创造出全新的视频内容。
- Loop:Loop 功能可基于视频的任意部分创建流畅的循环。如果用户想要制作一个循环播放的视频片段,比如一段动画或者一个特效,就可以使用 Loop 功能。通过这个功能,用户可以将视频中的某个精彩瞬间无限循环播放,增强视频的吸引力和趣味性。
三、Sora 的订阅与适用范围
Sora 对拥有 OpenAI Plus 和 Pro 账户的用户开放,不同用户有不同的生成额度和限制。具体来说,ChatGPT Plus 订阅用户每月可生成 50 个低分辨率视频,单个视频时长最长 5 秒;而 ChatGPT Pro 订阅用户则能够无限制生成高分辨率视频,时长最长可达 20 秒,同时还拥有 500 次快速生成的额度(如果选择的分辨率更高,则次数更少)。
目前,Sora 已在美国及多数国家上线,但暂未对欧洲及英国地区开放。其支持的国家和地区包括阿尔巴尼亚、阿尔及利亚、安道尔、安哥拉、安提瓜和巴布达、阿根廷、亚美尼亚、澳大利亚、奥地利、阿塞拜疆、孟加拉国、巴巴多斯、比利时、伯利兹、贝宁、不丹、波斯尼亚和黑塞哥维那、博茨瓦纳、巴西、文莱、保加利亚、布基纳法索、佛得角、加拿大、智利、哥伦比亚、科摩罗、刚果(刚果 – 布拉柴维尔)、哥斯达黎加、科特迪瓦、克罗地亚、塞浦路斯、Czechia(捷克共和国)、丹麦、吉布提、多米尼克、多明尼加共和国、厄瓜多尔、萨尔瓦多、爱沙尼亚、斐济、芬兰、法国、加蓬、冈比亚、乔治亚州、德国、加纳、希腊、格林纳达、危地马拉、几内亚、几内亚比绍、圭亚那、海地、罗马教廷(梵蒂冈城)、洪都拉斯、匈牙利、冰岛、印度、印度尼西亚、伊拉克、爱尔兰、以色列、意大利、牙买加、日本、约旦、哈萨克斯坦、肯尼亚、基里巴斯、科威特、吉尔吉斯斯坦、拉脱维亚、黎巴嫩、莱索托、利比里亚、列支敦士登、立陶宛、卢森堡、马达加斯加、马拉维、马来西亚、马尔代夫、马里、马耳他、马绍尔群岛、毛里塔尼亚、毛里求斯、墨西哥、密克罗尼西亚、摩尔多瓦、摩纳哥、蒙古、黑山、摩洛哥、莫桑比克、缅甸、纳米比亚、瑙鲁、尼泊尔、荷兰、新西兰、尼加拉瓜、尼日尔、尼日利亚、北马其顿、挪威、阿曼、巴基斯坦、帕劳、巴勒斯坦、巴拿马、巴布亚新几内亚、巴拉圭、秘鲁、菲律宾、波兰、葡萄牙、卡塔尔、罗马尼亚、卢旺达、圣基茨和尼维斯、圣卢西亚、圣文森特和格林纳丁斯、萨摩亚、圣马力诺、圣多美和普林西比、塞内加尔、塞尔维亚、塞舌尔、塞拉利昂、新加坡、斯洛伐克、斯洛文尼亚、所罗门群岛、南非、韩国、西班牙、斯里兰卡、苏里南、瑞典、瑞士、台湾、坦桑尼亚、泰国、东帝汶(东帝汶)、多哥、汤加、特立尼达和多巴哥、突尼斯、火鸡、图瓦卢、乌干达、乌克兰(某些例外)、阿拉伯联合酋长国、英国、美国、乌拉圭、瓦努阿图、赞比亚等。
虽然 Sora 在全球许多国家上线,但由于欧洲的科技监管更严格,目前暂未对欧洲大部分地区开放。此外,Sora 在使用过程中也存在一些限制,例如生成的视频最长只能达到 20 秒,这在一定程度上限制了其应用场景。但随着技术的不断进步,相信 Sora 在未来会不断完善,适用范围也会越来越广泛。
四、Sora 的开发背后的努力
Sora 的研发是 OpenAI 的一项长期投入,凝聚了众多工程师的智慧与努力。自今年二月推出初版模型以来,OpenAI 对 Sora 进行了大规模优化,最终推出了性能更强、速度更快的升级版本 ——Sora Turbo。这款模型具备生成视频、图像动画、视频样式转换及时间延展等多种能力,为用户带来了全新的视频创作体验。
产品团队仅由 5 至 6 名工程师组成,却在数月内完成了从模型到产品的开发工作,展示了惊人的执行力。他们当中不乏像 Tim Brooks、William Peebles 和 Aditya Ramesh 这样的优秀人才。Tim Brooks 是 DALL-E 3 作者之一,GitHub 5.7k 项目 InstructPix2Pix 作者,在视频生成研究方面有着丰富的经验。William Peebles 和谢赛宁合作,搞出了 Sora 的技术基础之一 DiT(扩散 Transformer)。Aditya Ramesh 是 DALL-E 的创造者,主导了三代 DALL-E 的研究,如今又领导 Sora 团队。此外,团队中还有像 Li Jing、Yufei Guo、Will DePue 等优秀成员,他们共同为 Sora 的开发贡献了力量。
同时,OpenAI 在内容安全与滥用防范方面也投入了大量资源。采取了较为保守的初期策略,以平衡创造自由与内容安全。所有由 Sora 生成的视频都附带 C2PA 元数据,以标识视频来自 Sora,提供透明性并验证来源。还开发了一款内部搜索工具,利用生成内容的技术属性来帮助验证视频是否来自 Sora。此外,在上传图像和视频之前,OpenAI 会要求用户同意使用协议,承诺不上传 18 岁以下未成年的照片、色情或暴力内容、受版权保护的内容。一旦被发现上传违禁内容,账号会被关停。
虽然目前部署的 Sora 版本存在许多局限性,如常常生成不符合现实的物理效果,在处理长时间的复杂动作时会遇到困难等。但 OpenAI 仍在努力让这项技术对所有人都更加经济实惠,不断改进和完善 Sora,为用户提供更好的视频生成服务。
五、Sora 的局限性
目前部署的 Sora 版本存在许多局限性,常常生成不符合现实的物理效果,并且在处理长时间的复杂动作时会遇到困难。
例如,在模拟复杂场景的物理行为时,Sora 可能会出现一些问题。像在生成 “五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐” 的视频时,狼的数量会变化,一些狼会凭空出现或消失。此外,Sora 在处理空间细节时也可能出错,如将左右搞反,或在描述随时间变化的事件时出现精确度不足,例如无法精确遵循特定的摄像机机位轨迹等。
Sora 在生成视频中可能会出现不符合物理原理的场景,比如这个人正在反向跑步。这表明 Sora 在理解和模拟现实世界的物理规则方面还有待提高。同时,在处理长时间的复杂动作时,Sora 也面临着挑战。例如,对于一些需要长时间连续动作的场景,Sora 可能无法保持动作的连贯性和准确性。
尽管 Sora 在视频生成领域取得了重大突破,但这些局限性也限制了它的应用场景。OpenAI 正在努力改进 Sora,以解决这些问题,提高其生成视频的质量和准确性。未来,随着技术的不断进步,相信 Sora 会逐渐克服这些局限性,为用户提供更加优质的视频生成服务。
六、Sora 的影响
Sora 的出现对多个领域产生了深远的影响。在办公场景中,它可以快速生成演示视频、培训资料等,提高工作效率。例如,利用 Sora 生成的产品介绍视频,可以让员工更直观地了解公司的产品和服务。
在电商领域,Sora 可以为商品制作生动的宣传视频,吸引消费者的注意力。通过个性化推荐功能,可以根据用户的浏览历史和购买行为,生成符合用户需求的视频推荐,提升用户的购物体验。如写作素材中提到的,跨境电商企业可以利用 OpenAI 的技术,在智能选品、营销视频素材制作、精准投放等方面实现智能化升级。
在营销领域,Sora 可以帮助企业制作更具创意和吸引力的广告视频。企业可以通过输入文本描述,快速生成各种风格的广告视频,节省制作成本和时间。同时,Sora 的 Remix、Re-cut、Blend 和 Loop 等视频编辑模式,可以让企业根据需求对视频进行修改和优化,提高广告效果。
在文娱领域,Sora 可以为电影、动画、游戏等制作提供新的创意和技术支持。如写作素材中提到的,Sora 可以根据剧本或故事大纲,快速生成动画或特效视频,大大缩短制作过程并降低成本。同时,Sora 的多角度镜头和叙事推动力等特点,可以为文娱作品带来更丰富的视角和故事性。
在影视制作领域,Sora 虽然目前还不能完全替代传统的影视制作方式,但它可以在制作预告片、视觉概念设计以及剪辑过程中发挥辅助作用。例如,利用 Sora 生成的预告片可以吸引观众的关注,为电影的宣传推广提供有力支持。
在广告领域,Sora 可以制作出更加生动、逼真的广告视频,提高广告的吸引力和影响力。同时,Sora 的快速生成能力和多样化的编辑模式,可以满足广告公司对不同类型广告的制作需求。
在教育领域,Sora 可以制作出更加生动的教学视频,增强学生的学习体验。如写作素材中提到的,OpenHydra 开源项目在人工智能教育主题工作坊中,展示了如何将人工智能技术应用于真实教育场景。Sora 可以帮助教师制作教学视频,提高教学效果。
RA/SD 衍生者AI训练营。发布者:風之旋律,转载请注明出处:https://www.shxcj.com/archives/7751