本报记者李昆昆李正豪北京报道
近日,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是其继文生文、文生图、3D生成之后的又一新的里程碑。其实,就在最近,字节跳动也发布了视频生成模型PixelDance和Seaweed,在AI创作平台即梦AI正式上线,面向公众免费开放使用。
盘古智库高级研究员江瀚在接受《中国经营报》记者采访时表示:“从技术进步的角度来看,腾讯和字节跳动在视频生成大模型领域的投入与成果,展示了AI技术的飞速发展。从市场竞争的角度来看,随着腾讯、字节跳动等巨头的加入,视频生成大模型领域的竞争将更加激烈。”
大厂进军文生视频
“用户只需要输入一段描述即可生成视频。”腾讯混元相关负责人向记者说,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API(应用程序接口)同步开放内测申请。
腾讯方面介绍称,腾讯混元生成视频大模型可以实现超写实画质、生成高度符合提示词的视频画面,画面流畅不易变形。比如在冲浪、跳舞等大幅度运动画面的生成中,腾讯混元可以生成流畅、合理的运动镜头,物体不易出现变形;光影反射基本符合物理规律,在镜面或者照镜子场景中,可以做到镜面内外动作一致。同时,模型还可以实现在画面主角保持不变的情况下自动切镜头,这是业界大部分模型目前所不具备的能力。
据介绍,混元视频生产模型基于跟Sora类似的DiT架构,并在架构设计上进行多处升级。混元视频生成模型适配了新一代文本编码器来提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D变分编码器),让模型在细节表现上有明显提升,特别是人脸、高速镜头等场景。
记者采访字节跳动方面关于其文生视频产品的最新进展及未来发展相关问题,截至发稿前,对方尚未回复。其公开资料显示,今年9月底,字节跳动发布豆包模型家族的两款视频生成模型Pixeldance和Seaweed,并通过即梦AI、火山引擎分别面向创作者和企业客户小范围邀测。当PixelDance生成10秒视频时,切换镜头3—5次的效果最佳,场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述,PixelDance能生成魔术般的特效。此外,用户还可使用时序提示词、长镜头等技巧,增强视频的复杂度和表现力,对剧情创作有帮助。
Seaweed模型则在图生视频场景体现出较好的首帧一致性,可以保持与用户输入图的一致性、色彩等细节还原,实现大幅度运动画面流畅自然,具有视觉美感和真实感。
据了解,字节跳动在文生视频方面也是采用了DiT架构,在大幅度运动画面表现流畅自然。经过剪映、即梦AI等业务场景打磨和持续迭代,豆包视频生成模型具备专业级的光影布局及色彩调和能力,画面视觉具有美感和真实感。
已成“混战”局面
东吴证券在今年8月发布的研报里提到,在AI渗透率为15%的中性假设下,中国AI视频生成行业的潜在空间为3178亿元;在全AI模式下,电影、长剧、动画片和短剧的制作成本,相较传统模式将下降超95%。
除了腾讯、字节跳动,国内其他一些公司也在发力文生视频。比如在10月举行的“2024中国计算机大会”上,快手副总裁、大模型团队负责人张迪透露,自今年6月发布以来,快手可灵AI已有超过360万用户,累计生成3700万个视频以及超过1亿张图片。11月8日,“AI六小龙”之一的智谱AI对其视频生成工具清影进行升级。更早之前,8月31日,MiniMax发布了其首款AI高清视频生成模型技术abab-video-1。
国外方面,12月10日凌晨,OpenAI宣布旗下视频生成模型Sora正式面向大众推出。自今年2月首次预告以来,Sora仅向一些艺术家、知名演员和导演提供试用服务,但迟迟未上线,吊足大众胃口。如今正式落地,引发关注。
与上一个版本相比,此次的Sora Turbo支持生成1080p分辨率、最长20秒的视频,在时长上有明显增长。更大的亮点在于它提供“编辑”服务,除了单纯的文生视频、图生视频、视频生视频外,用户还可以通过指令实现视频重混、重新剪辑、循环、混合等功能,更像是一个加强版的视频编辑器。
早在Sora发布之前,2023年1月起,Runway、Genmo、英伟达、Pika等海外公司都发布了AI视频生成和多模态技术产品。而随着Sora爆火,AI+视频技术和产品正在迅猛升级迭代,诸如电影、广告、视频剪辑、视频流媒体平台、UGC(用户生成内容)创作平台、短视频综合平台等众多行业有望受益。
业内人士认为,与创业公司相比,腾讯、字节跳动这种大厂数据等资源比较丰富,又有流量支持,商业化进程会比较快一些。
江瀚向记者说,这种竞争不仅体现在技术层面,还体现在应用场景的拓展和商业化模式的探索上。目前,虽然视频生成技术还未到大规模商用的阶段,但腾讯、字节跳动已经看到了其在工业级商业场景中的应用潜力,如广告宣传、动画制作、创意视频生成等。随着技术的不断成熟和应用场景的拓展,视频生成大模型将成为企业数字化转型和智能化升级的重要工具,市场前景广阔。
今年6月,继好莱坞编剧在大罢工中要求限制AI撰写剧本之后,代表好莱坞演员权益的美国电视和广播艺人联合会(SAG-AFTRA)表示,AI在影视行业确有用武之地,但必须在演员同意并付费的前提下使用,譬如在计算机生成的动作、表情捕捉画面上,“AI应该是辅助、增强人类,而不是取代人类”。
文生视频技术的进步,为内容创作、产业升级带来了积极影响,同时也为市场发展提供了巨大的空间。随着产品的进一步迭代升级,文生视频有望在细分领域内容创作过程中大大提升效率,加速优质供给产出,为各细分行业带来新的机会。