中国经营报数字报刊平台

Sora横空出世人类“认赌服输”？

OpenAI首个文生视频模型“炸街”。

视觉中国/图

本报记者曲忠芳北京报道

“我更关心的是Sora究竟会对我有什么影响？”在文本生成视频模型Sora持续火爆的龙年开工第一周里，短视频行业创业人士吴灵（化名）提出了这个问题，显然这一问题也代表了更大范围内社会公众的疑问。

Sora是OpenAI于北京时间2月16日凌晨发布的文本生成视频的人工智能模型，甫一亮相就成为刷爆科技圈的热点话题，“王炸”“颠覆”等词语高频地出现在社交媒体对Sora的描述中，甚至直到本篇文章发稿之时，尽管Sora尚未开放接口，围绕Sora的讨论热度依然居高不下。英伟达高级科学家JimFan称Sora是视频生成领域的“GPT-3时刻”，360集团董事长周鸿则认为随着Sora出现，人类实现AGI（通用人工智能）的时间从10年、20年可能缩减至一两年。特斯拉CEO埃隆·马斯克称：“人类认赌服输，但AI增强的人类将创造出最好的作品。”而图灵奖获得者、Meta首席科学家Yann Le-Cun则对Sora的生成式技术路线提出了质疑。

喧嚣之下，如果抛开各种溢美之词与技术路线的争论，社会公众或许更想了解的是Sora以及由此引发的技术迭代升级，究竟对个人有什么用？一如2023年的ChatGPT，它将如何改变个人的生活与工作？基于此，《中国经营报》记者采访了数位相关领域的从业者及第三方专家，试图针对社会公众的疑问提供初步的思路与阐释。

震撼背后：视频生产力的突破

“AI会取代我的工作吗？”当Sora出现后，这种普遍性的“职业焦虑”进一步加深。

“输入一段文本，生成一个视频，这个功能并不新鲜，当下包括内容社区、短视频平台等几乎所有的社交媒体都标配了一键文生视频的功能。”吴灵在持续从事短视频内容输出的工作中，对各类主流的视频剪辑工具的各种功能已熟稔于心。

吴灵向记者做了一个非常简单的演示：假如一个新手要做一个科普视频，自己写好文案，抑或借助ChatGPT之类文本生成工具来做好文案，然后打开剪映这些常用的视频剪辑工具，输入文案即可一键生成一段视频作品。在演示中生成的这段视频，乍看之下与文案内容并不明显违和，但细看之下依然存在很多问题，部分视频画面与文案只能说是一个“约”化的呈现，例如：演示文案中提到“脑机接口侵入式手术”，生成画面里呈现的却是一个口腔检查的场景；文案中提到了一本古代书籍，画面呈现的则是一本封面破旧的、并不相关的另一本书等等。吴灵透露，这些由AI生成文案、图片甚至视频的工具目前还只能是一个辅助或启发灵感的角色，优质的作品生产仍较大程度上依赖人工。

在Sora发布后，吴灵第一时间观看了OpenAI的官方介绍及视频案例，根据OpenAI的官方介绍，Sora只需一段普通的文本就能自动生成高度逼真、高清质量的视频，且时长突破60秒。他和很多科技圈人士都表示“震撼”，一方面是震惊于OpenAI的动作之快，仅仅一年有余的时间里，在抛出了文本生成大模型ChatGPT、图像大模型DALL·E等之后，又在视频生成领域实现了突破，进一步验证AI生成技术路线的可行性。另一方面的震撼源于自身的职业发展焦虑，一如ChatGPT面市之初席卷全球的普遍性职业焦虑——“AI会取代我的工作吗？”当Sora出现后，这种普遍性的“职业焦虑”进一步加深。当然，吴灵也指出，无论对于短视频创作者，还是其他各个行业领域的从业者，要缓解焦虑的方法就是要探索新技术、新工具如何“为我所用”。在他看来，2023年ChatGPT火热，带动了国内出现各类大模型涌现，“类似的剧本今年可能仍会上演。”中国版的Sora或许已然在酝酿发力。

提供视频生成工具“一帧秒创”应用的新壹科技一位负责人向记者介绍，目前有一定应用规模的视频生成工具最多支持4秒视频生成，视频AI生成仍属于“素材级别”，一个完整的视频作品往往需要几十个素材构成，视频AI生成工具解决的是通过已有素材、AI素材的组合完成作品级的视频生成。Sora将视频生成的时长突破至1分钟，而且释放出的试用效果已超出了市场上的已有产品。

当被问及“Sora是否会带来行业性的颠覆与冲击”时，新壹科技上述负责人则提供了另一个思考视角，视频生成技术的进步对于AIGC（AI生成内容）领域来说是一个利好事件：一方面可以降低对于素材的依赖，另一方面能提升生成效果，视频内容生产的门槛有望进一步降低。

未来展望：通向AGI之路

与ChatGPT引发大模型争奇斗艳类似，Sora的出现势必将引发全球范围内在视频生成领域的创业投资热潮。

截至2024年2月22日，国内已有数十家券商发布了超百份关于Sora的研报，记者综合各家研报及科技圈内知名人士的公开发言梳理总结后发现，Sora模型的亮点大致表现在以下几点：一是对自然语言的理解程度明显增强；二是效果上高逼真、具有较强的逻辑连贯性，时长最高达到1分钟；三是多模态应用加速落地，文本到视频和图像到视频的转换能力，有望率先改变传统的视频创作、广告营销、游戏与教育等领域，激发更多高质量内容生成与流量变现，并多模态赋能医疗、安防、智能驾驶、工业等领域，具有更加广阔的想象空间。从市场竞争层面来看，与ChatGPT引发大模型争奇斗艳类似，Sora的出现势必将引发全球范围内在视频生成领域的创业投资热潮，以及启发各个行业领域的关注以及探索各领域的落地应用之路。

在对于Sora的讨论中，AGI常常被作为人工智能的“终极目标”来探讨。AGI通用人工智能，实际是指拥有与人类相当甚至超过人类智能的人工智能状态，在预期的理想状态中，AGI不仅能够像人类一样拥有感知、理解、学习和推理等基础思维能力，还能在不同领域灵活运用、快速学习和创造性思考。在AI发展的数十年时间里，包括自然语言理解（NLP）、深度学习、具身机器人、脑机接口等等，都是在向着AGI方向迈进。

OpenAI在Sora技术报告的标题中写道，视频生成模型是“世界模拟器”。需要指出的是，尽管Sora在模拟能力方面已取得了显著的进展，但它目前仍然存在许多局限性。中国工业合作协会仿真技术产业分会会长张霖向记者解释了视频生成模型与当下数字孪生、仿真技术的关联与区别。他指出，目前的Sora仍只是个视频制作工具，仿真和数字孪生是通过对物理世界建模认知和改造物理世界，视频动画只能反映世界表象的东西，并非模型的全部，类似的AI视频工具大多情况下生成的视频并不是现实中存在的。

值得注意的是，无论是监管层面，还是社会大众，与ChatGPT之类生成式人工智能模型一样，Sora及由其引领的视频生成模型爆发，在生成内容的真实性、版权归属、隐私保护、数据治理及安全等方面都存在潜在的法律和伦理风险与挑战。对此，在通往AGI的道路上，普通大众可能需要更加警惕新技术带来的深度伪造风险及新型犯罪等问题。

	第01版：头版
	第02版：要闻
	第03版：要闻
	第04版：特别报道
	第05版：金融
	第06版：财富
	第07版：资管
	第08版：银行
	第09版：银行
	第10版：银行
	第11版：保险
	第12版：新金融
	第13版：区域·地产
	第14版：地产
	第15版：地产
	第16版：地产·家电
	第17版：文旅
	第18版：文旅
	第19版：能源·化工
	第20版：游戏
	第21版：TMT
	第22版：TMT
	第23版：TMT
	第24版：TMT
	第25版：车视界
	第26版：车视界
	第27版：车视界
	第28版：医药·健康
	第29版：快消
	第30版：快消
	第31版：快消
	第32版：商业案例

	Sora横空出世人类“认赌服输”？
	手机厂商加码AI 是走向岔路还是殊途同归