寥寥数语生成60秒视频 Sora能否改变影视行业？--艺术--中国作家网

OpenAI发布文生视频大模型引关注寥寥数语生成60秒视频 Sora能否改变影视行业？

来源：解放日报　|　俞陶然　　2024年02月20日08:29

Sora生成的视频截图

近期，OpenAI公司发布的文生视频大模型Sora引发全球关注。只要输入一句或寥寥几句描述画面情节的提示词，它就能生成一段时长60秒的视频。这些视频的质量和准确性达到了令人惊艳的程度。

Sora的技术原理是什么？其应用价值有多大？记者采访了上海交通大学计算机科学与工程系教授赵海。

赵海教授介绍，Sora属于多模态混合模型，由大语言模型和文图生成器拼接而成。纯文图生成模型对提示词的理解能力很弱。比如，用户输入“世界和平”，它往往无法生成准确的图片。如果把文图生成器与大语言模型拼接在一起，后者就能把“世界和平”转化为和平鸽、橄榄枝等文图生成器“看得懂”的提示词，从而生成切题的作品。

文图生成器经改造后，也能生成视频。因此，从文图生成器过渡到文生视频大模型，不需要很大的技术突破，研发团队主要依靠的是大算力、大模型、大样本训练数据等“先天条件”。“这些条件都是OpenAI所具备的，所以Sora的问世不能算技术革命，而是工程实践的成功。”赵海说。

Sora展示的一批文生视频案例令人惊艳。比如，输入这样一段提示词：“一位时尚女性走在充满霓虹灯和城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。”Sora根据这段话生成的60秒视频效果颇佳，头发、服装等细节都没问题，并实现了连贯的场景转换，达到以假乱真的水平。

Sora与同类产品相比，具有三大优势——60秒时长、单视频包含多角度镜头、遵循部分物理规律。

Sora问世前，同类产品只能根据提示词生成5秒以内的短视频。Sora的作品不仅长达1分钟，而且有多角度镜头，这些镜头里的人和物还能保持前后一致性，不会因角度变换而出现问题。在对物理规律的掌握方面，Sora也有不俗表现，比如在其生成的一段SUV（运动型多用途汽车）行驶视频中，汽车影子与车身始终契合。

不过，Sora的作品也存在不少瑕疵。如输入“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”，视频中狼的数量会莫名改变，几只狼凭空出现或消失。赵海分析：“目前的文图生成器对数字不够敏感，比如生成的一些手会有6根手指，今后要加强这方面的训练。”

在他看来，视频大模型将改变影视行业的游戏规则。以技术含量最高的科幻电影为例，目前拍摄一部科幻大片往往需要数年时间，视频大模型用于这个领域后，特效画面的制作时间有望缩短到几天，从而大幅降低科幻电影拍摄的时间成本和技术门槛。视频摄制成本的降低，也将给传媒行业带来变革。今后，部分视频的摄制也许只要在电脑前输入一些提示词，省去了现场拍摄、后期剪辑等耗时费力的过程。

OpenAI发布文生视频大模型引关注 寥寥数语生成60秒视频 Sora能否改变影视行业？

OpenAI发布文生视频大模型引关注寥寥数语生成60秒视频 Sora能否改变影视行业？