本报记者李昆昆李正豪北京报道
在OpenAI推出文生视频大模型Sora之后,中国不少互联网巨头也推出了相关产品,比如腾讯混元推出的图生视频模型Follow-Your-Click,字节跳动也在研发多个产品,其中包括多模态数字人产品以及AI生图、AI生视频产品等。
腾讯方面告诉《中国经营报》记者,图生视频Follow-Your-Click大模型基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。
百度文心一言、文心一格等大模型产品也有文生视频、文生图等功能,该公司内部一位AI从业者向记者表示,做文生视频最大的瓶颈在于算力规模和数据质量,“Sora没有公布技术路线,但技术架构就这么几种,而且很多业内人士都有交流,不是什么秘密”。记者问其国内公司是否有可能追赶上Sora,对方称,从中长期来看,Sora现在的水平肯定很多公司都可以达到。
巨头纷纷入场
据悉,当前的图生视频大模型中,一般的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,整个过程较为复杂。另外,从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图像上的某一个区域,精准度和灵活性有所欠缺。
为了解决这些问题,腾讯混元大模型团队、清华大学和香港科技大学的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click,致力于让图片“一键点,万物动”成为现实。
另外,据记者了解,腾讯最近还推出了一个工具名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。Demo(演示)界面有两种玩法:一种可以上传一张图然后在这张图的基础上进行视频生成;另一种是上传一个参考视频和一张图,使图片中的内容按照视频中的动作运动起来。
快手科技创始人兼首席执行官程一笑也曾在业绩电话会上透露,文生视频领域,快手于去年年底推进专项研发。他同时指出,这对短视频生态是巨大的机会,未来快手会把生成模型和生产者工具结合起来,不断帮助创作者降低创作门槛,提升短视频制作质量和效率。
“故事接龙”(StoryStorm)的创始人宋东桓告诉记者,目前,至少有数十家中国企业拥有专门针对出海市场的文生视频工具产品或相关项目,主要目标市场为美国和欧洲。据其介绍,“故事接龙”由500多名AI视频创作者组成,其中约100名核心成员是“中国AI内容生成领域的佼佼者”。
文生视频技术哪家强
2月23日,天眼查专利信息显示,百度文生视频专利获得授权,其专利可以根据文本内容生成视频。百度申请的该专利名称为“视频生成方法、装置、电子设备和存储介质”专利,摘要显示,本公开涉及人工智能技术领域,尤其涉及增强现实、虚拟现实、计算机视觉、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。
具体实现方案为:响应于接收到目标文本,根据与其相关的多个初始时间信息,确定与至少一个目标动作标签文本分别对应的至少一个第一目标时间信息,其中,目标文本是利用至少一个目标动作标签文本处理初始文本得到的,目标动作标签文本与预设动作对应;根据至少一个第一目标时间信息,对目标虚拟形象进行渲染,得到至少一个第一视频片段,其中,第一视频片段与预设动作对应;根据至少一个第一视频片段,生成目标视频。相关专利自2022年11月30日提交申请,2023年4月7日申请公布,预估将于2042年11月30日到期。
除百度外,清华大学近期也公开了一个文生视频专利。2月20日,国家知识产权局网站公告显示,清华大学申请的“一种定制化多主体文生视频方法、装置、设备及介质”专利公布,发明人为王鑫、朱文武、陈虹。摘要显示,该申请涉及神经网络技术领域,通过多种损失对文生视频模型的参数进行优化,使优化的模型基于文本描述生成视频中的图像时,文本描述与定制化主体保持一致,且在每个主体在生成过程中的特征不会发生混淆的同时消除合成痕迹。
Sora之所以能够震惊行业并成为“顶流”,在于其能够对世界进行模拟,它不仅能够理解提示词中的角色、场景、概念等,还能理解“这些事物在物理世界中是如何存在的”。从时长到运镜再到角色理解,Sora模型刷新了多个行业指标,甚至重新定义了文生视频在当下的技术极限。
Sora模型的弱点也很明显,比如,Sora难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系,此外,还可能混淆提示的空间细节,如左右混淆。
不过,其训练过程受到大语言模型的启发,采用扩散型变换器结构,简单来说,就是将视频压缩到低维潜在空间并分解为时空区块。Sora在压缩空间上训练并生成视频,配合解码器模型还原到像素空间。随着计算量增加,样本质量会显著提升。
华鑫证券研报称,Sora的核心技术是基于OpenAI在自然语言处理和图像生成方面的深厚积累,与Runway、Pika等相比,Sora在视频生成的真实感、细节表现上均具标志性价值。AI视频生成虽不是新事物,但Sora的推出有望推高AI多模态的热度,可关注AI多模态应用塑造数字内容生产与交互新范式,赋能视觉行业,在文字、3D生成、动画、电影、图片、视频、剧集等方面,有望带来内容消费市场的繁荣发展。
在Sora发布后,与OpenAI研究科学家BillPeebles共同推出Sora技术基础之一的DiT的谢赛宁在X平台上写道,“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性(Sim-plicity)和可扩展性(Scalability)”。他表示:“可扩展性是论文的核心主题,优化的DiT架构的运行速度比UNet(传统文本到视频模型的技术路线)快得多。更重要的是,Sora证明了DiT缩放定律不仅适用于图像,现在也适用于视频——Sora复制了DiT中观察到的视觉缩放行为。”