第22版:TMT 上一版3  4下一版
 
版面导航

第01版
头版

第02版
要闻

第03版
要闻
 
标题导航
首页 | 版面导航 | 标题导航
2024年10月14日 星期一
3 上一篇 放大 缩小 默认
文生视频大模型集体上线 商业化竞争加剧

    本报记者李昆昆李正豪北京报道

    在近日的云栖大会上,通义万相发布了自研AI视频生成模型,首批上线文生视频、图生视频功能。通义App端完全免费,用户每天不限次使用。

    在文生视频功能中,输入任意中英文多语言prompt(提示词),就能生成一段高清、逼真的视频。它能够支持最长5秒视频生成,每秒30帧,分辨率为720P。更惊艳的是,它还能生成与画面匹配的音效。

    盘古智库高级研究员江瀚在接受《中国经营报》记者采访时表示:“首先,阿里视频生成大模型的技术路径是全自研的视觉生成大模型,采用了业界领先的Diffusion+Transformer架构。其次,该模型已经在手机端App和PC端官网上线,支持5秒的视频生成,每秒30帧,分辨率为720P,并且能够生成与画面匹配的音效。进展方面,阿里已经成功实现了文生视频和图生视频的功能,并且在试用中表现出了良好的画面质量、语义理解和风格泛化能力。”

    集中爆发

    今年9月,国产视频生成大模型迎来了新一轮爆发:8月31日MiniMax正式发布视频模型vid-eo-01,拉开了“红毯仪式”的序幕。9月19日,阿里云CTO周靖人在云栖大会上发布全新视频生成模型。同日,快手发布可灵1.5模型,内部评测整体效果比可灵1.0模型提升了95%。9月23日,美图公司宣布美图奇想大模型完成视频生成能力的升级。9月24日,字节跳动旗下火山引擎发布了PixelDance和Seaweed两款视频生成大模型。9月26日,美图公司又向所有用户开放了AI短片创作工具MOKI。9月30日,可灵又上线了“对口型”功能,支持对生成的人物上传音频内容,并宣布正式全面开放API(应用程序接口),上线了AI创作社区“创意圈”。

    阿里方面称,作为一款“最听话”的AI生视频模型,通义万相具备复杂语义理解和概念组合生成能力,将文字创意精准呈现。

    据了解,对于灵感匮乏的朋友,在文生视频界面点击“灵感扩写”,可将简单提示词自动“扩写”成忠于原意的长提示词,大幅度提升生成效果。

    图生视频功能里,支持将任意图片转化为动态视频,按照上传的图像比例或预设比例进行生成,同时可以通过提示词来控制视频运动。

    通易万相的音画同步功能,不但可以大幅提升影像品质,更可让创作者免去搜寻配乐、修改音效等麻烦。现在,您只需在电脑上输入文字或上传图片,“通易万相”便可为您提供“图片+语音”一站式服务。

    江瀚认为,与其他视频生成大模型相比,阿里视频生成大模型的优势在于,“首先,它更懂中国风和中文,能够更好地理解和生成与中国文化和语言相关的视频内容;其次,它在计算效率上具有优势,通过逐步降噪来生成最终动画,减少计算量并提高生成速度;最后,它支持多种场景应用,能够为电商、广告创意、自媒体、影视/动画制作等领域提供更多灵感来源。劣势方面,与其他模型相比,可能还存在一些特定的技术局限性和优化空间,需要持续地研发和改进。”

    寻找规模化落地场景

    随着玩家的基本聚齐,视频生成大模型的竞争开始进入寻找规模化落地场景的阶段。我们可以为视频生成大模型找到从C端到B端的丰富的应用场景,比如朋友圈内容、AI短剧、视频广告、口播内容、宣传片、节目制作、电影后期……

    对于视频平台而言,这些撑起内容创作生态基础的个体创作者,是最重要的服务对象。更低的视频创作门槛,更丰富多彩的灵感表达,意味着更为繁荣的视频内容生态。剪映、即梦AI、快影、You-Tube、Instagram正在融入的视频生成大模型能力,甚至美图公司的MOKI,都会将服务这部分创作者作为一个重点。

    谈及对阿里文生视频大模型未来发展前景的看法,江瀚表示:“首先,我看好阿里视频生成大模型的未来。其次,因为阿里在人工智能领域具有深厚的技术积累,其自研的视觉生成大模型在技术上具备领先地位。同时,阿里在市场推广和应用场景拓展方面也具有较强的能力,能够为用户提供更好的使用体验和服务。此外,随着人工智能技术的不断发展和应用场景的不断拓展,视频生成大模型的市场需求也将不断增加,为阿里视频生成大模型的发展提供了广阔的空间和机遇。”

    对于大模型创业公司而言,就像MiniMax创始人闫俊杰所说,人类每天消费的大部分内容都是图文和视频,文字的占比并不高,具备输出多模态内容能力的大模型能够获得更高的用户覆盖度和使用度。

    对于拥有视频业务和用户积累的成熟企业而言,大模型可能意味着一个重新分配蛋糕的机会,也意味着深挖已有用户潜力的可能,最不济,对大模型的投入也能够在一定程度上帮助企业降低被挤下牌桌的风险。

    东吴证券在研报中认为,AI渗透率提升的核心驱动力在于企业的降本增效诉求。根据东吴证券的测算,全AI模式下,电影、长剧、动画片、短剧的制作成本分别为2.5/9.3/3.7/0.4万元人民币,相较于传统模式成本降低幅度超95%;人机共创模式下,电影制作成本有望降低43%。

    Runway与狮门影业的合作表明企业与视频生成大模型结合的意愿在提升。在这个合作中,Runway将使用狮门影业的电影目录来训练自定义视频模型,使其可以生成电影视频,并利用其增强创作者的作品。当然,这个探索需要更长时间,并具备很强的不确定性。

    另一种模板化的路径是与行业顶尖的创作者合作,推出最佳实践。快手在不久前宣布启动“可灵AI”导演共创计划,联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯9位导演,依托可灵的技术能力,制作出品9部AIGC(人工智能生成内容)电影短片。其中沉淀出来的最佳实践,也能为更多内容创作者使用可灵时提供借鉴。

    我们也看到,越来越多的视频生成大模型开始面向企业开放API接口,借助更多企业的力量,共同开发视频生成大模型的场景化模板。比如Runway为其视频生成大模型Gen-3AlphaTurbo开放了仅限受邀者使用的API接口,供受邀者在应用中构建视频生成功能。Luma、Vidu也都推出了自己的API开放计划。

    未来文生视频大模型的发展,还有待继续观察。

3 上一篇 放大 缩小 默认
  © 版权所有 中国经营报社 合作伙伴:方正爱读爱看网
   第01版:头版
   第02版:要闻
   第03版:要闻
   第04版:要闻
   第05版:金融
   第06版:财富
   第07版:资管
   第08版:广告
   第09版:银行
   第10版:金融
   第11版:新金融
   第12版:保险
   第13版:区域·地产
   第14版:地产
   第15版:地产
   第16版:地产
   第17版:地产·文旅
   第18版:医药·健康
   第19版:能源·化工
   第20版:游戏
   第21版:TMT
   第22版:TMT
   第23版:TMT
   第24版:TMT
   第25版:车视界
   第26版:车视界
   第27版:车视界
   第28版:车视界
   第29版:快消
   第30版:快消
   第31版:快消
   第32版:商业案例
大模型首次上天 AI天地一体化提上日程
文生视频大模型集体上线 商业化竞争加剧