巴黎奥运会如火如荼地进行着,视频生成大模型的赛场同样热闹,国内多位“参赛选手”纷纷亮相,只为争夺名为“中国版Sora”的金牌。
在刚刚过去的七月,生数科技打造的视频大模型Vidu上线,面向用户开放文生视频和图生视频两大功能;智谱AI正式发布视频生成大模型“清影”;商汤发布首个面向C端用户的可控人物视频生成大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源名为LivePortrait的可控人像视频生成框架……
“目前,国产视频生成大模型的技术路径与Sora基本一致,只不过每家都会加入自己的Trick(技巧)。”Logenic AI联合创始人李博杰告诉《IT时报》记者,视频的本质可以看成是多张图片的连续排布放映,在文生图大模型中,最被人们熟知的技术是扩散模型,它可以根据输入的文字描述,获取数据的内在结构和分布规律,从而生成单张图片。
与传统路径不同的是,智谱清影摒弃了交叉注意力机制(Cross Attention)模块,采用将文本、时间、空间三个维度全部融合起来的Transformer架构,在输入阶段就将文本和视频向量化(Embedding),然后再将不同模态的向量直接连接(Concatenate)起来,形成单一的特征向量,输入到下游任务中。
不过,这两种不同结构的数据特征空间有较大差异,此时就需要通过专家自适应层归一化技术(Expert Adaptive Layernorm)对文本和视频两个模态分别进行处理,利用扩散模型中的时间步信息,实现视觉信息与语义信息的对齐。
6月28日,中央广播电视影视剧纪录片中心制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。此后,博纳影业与抖音合作推出AI科幻短剧《三星堆:未来启示录》,快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。截至8月8日,抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。
从这些AI短剧中可以看到,人物角色的面部特征从始至终保持一致。通常而言,单纯使用文字描述生成视频时,每次的结果都会有一定差异,那么,这些短剧的一致性是如何实现的呢?
李博杰分析,其中可能用到了文生视频的核心模型——ControlNet。ControlNet是一种“辅助式”的神经网络模型结构,通过在Stable Diffusion模型中添加辅助模块,形成一个“锁定”副本和可训练副本。简单来说,通过ControlNet完成人物形象建模后“锁定”,再通过可训练副本进行后期视频场景、动作等变换。
也正是因为“锁定”,视频人物难以实现大幅度动作,陈晓达经过实测后告诉记者,每生成一帧画面都是一次“开盲盒”的过程,无法确保生成内容符合标准,因此只能花费大量时间不断生成,从中挑选出可用画面拼凑成一部短剧,“你会发现宣传的都是3分钟以内的短剧,想要靠AI生成拼凑出一部完整的长视频作品,目前还做不到。”
智谱AI CEO张鹏在接受媒体采访时也表示,现在视频生成大模型的商业化仍处于非常早期的阶段,生成效果对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。
市场是有“嗅觉”的,虽然目前生成效果并不完美,但视频生成大模型赛道的火热程度不言而喻。启明创投主管合伙人周志峰在2024世界人工智能大会上预测,3年内AI视频生成技术将全面爆发。头豹研究院数据显示,预计到2026年,中国AI视频生成行业的市场规模将达到92.79亿元。
当无演员演绎、无场景搭建、无绿幕特效的“三无”AI影视作品走向市场时,演员和编剧的“危机”也悄然来临。博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示,将为AI短剧塑造的角色打造热门个人IP。
面对AI“威胁”情况,从去年夏天开始,美国编剧工会和演员工会联手发起大罢工,让好莱坞陷入长达数月的停摆,导致影视作品数量大幅减少。据外媒报道,这一情况在今年依然没有出现好转,部分演员还被要求在与华纳公司的合同中同意使用“数字合成形象”,若拒绝则可能失去工作机会。
从国产视频生成大模型的现有能力来看,制作动态海报、广告短片、特效动画等已经不在话下,且应用场景还在扩展。陈晓达认为,技术本身固然重要,但首先要让使用者掌握标准化的工业流程,新技术才得以长效落地,“AI技术短时间内没法取代演员和编剧的地位,但会使用AI技术的人很快就能取代他们”。