编辑|泽南、Panda
今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 —— MOVA(MOSS-Video-and-Audio)。
作为中国首个高性能开源音视频模型,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了极高的工业水准。
更具行业意义的是,在 Sora 2 和 Veo 3 等顶尖技术普遍走向闭源的当下,MOVA 选择将模型权重、训练代码、推理代码以及微调方案进行全栈开源。
它生成视频的效果,给人一种身临其境的真实感
效果亮眼
可称开源最强
过去一年,视频生成模型(Video Generation)经历了爆发式增长。从 Sora 到 Wan,再到 LTX Video,AI 输出的画面越来越逼真,能生成的时间越来越长。但仔细观察 AI 生成的视频你就会发现,这些视频有的是「哑巴」,有的配音出戏。音视频生成(Video-Audio Generation)模型正是通过端到端的模态融合弥补了传统视频模型的音频维度缺陷。
虽然以 Veo3 为代表的音视频端到端模型展示了极高的生成上限,但是其闭源的策略造成了严重的技术垄断,割裂了技术生态的连贯性,也让社区难以通过协作改进模型缺陷(如幻觉、不同步等),导致音视频生成领域缺乏像 LLM 时代那样的「开源爆发式」演进。
为了推倒这堵墙,让音视频生成能力真正回归社区,MOVA 应运而生。它具备高质量的端到端音视频生成能力,完整开源了 360p、720p 两个基础模型,以及包括微调、推理、生成工作流在内的全链路组件,补全了音视频生成基础模型的开源拼图。
电影级别物理智能:音与画的共振
在物理仿真层面,MOVA 展现了极其出色的「物理直觉」。在这里,声音是具备空间感与质感的环境反馈,而不仅仅是可有可无的音效。
当一辆 SUV 在沙漠中高速掉头时,漫天飞舞的狂沙不仅在视觉上极具冲击力,音轨中同步生成的马达轰鸣声与配乐紧密交织,营造出极强的速度感:
提示词:一辆 SUV 在沙漠里奔驰,并打方向盘掉头,狂沙飞舞,配上激动人心的音乐,并听到马达轰鸣声。
这种声画逻辑在复杂的巷战模拟中更为突出:
360p 模型生成,提示词:在阴天漫射光下的城市巷道中,多名穿沙色迷彩的武装人员保持固定防御队形:左前跪姿射手持续向左侧射击,左中射手掩护,右侧两到三名队员贴墙半蹲警戒,尘土飞扬、电线密集、街道纵深明显,固定稳定中景偏广机位、纪录片式电影写实质感、低饱和灰黄色调与轻微颗粒,短促橙色枪口火光但曝光稳定,音频包含密集近距枪声、子弹掠过与击中声、街区混响、装备摩擦与急促呼吸,人物、站位与构图始终不变。
这种对物理动态的捕捉同样体现在日常生活场景中。比如在下面的例子中,本・斯蒂勒在公路上滑滑板,随着他左右摇摆加速,耳边会传来风掠过路面的呼啸声,可以说相当好地还原了他在《白日梦想家》中的经典场景。
提示词:画面是一名穿着红色上衣、灰色裤子的男子在空旷的公路上滑板的场景,公路周边是草地和低山。男子通过左右摇摆的方式不断加速,展开手臂沿着公路不断滑行。背景声音为高速滑行时风吹过的呼啸声。
电影级别的口型同步能力:精准捕捉叙事灵魂
MOVA 另一大突破在于其电影级别的口型同步(Lip-sync)能力。它能够根据中英文指令,生成与语义、情感高度契合的多人物谈话场景。比如下面的公园散步视频中,对话的衔接极其自然:
提示词:画面中是一个男子和孩子在公园中散步的场景。男子转过头疑惑地问孩子说:“你长大想要干什么?” 男孩一脸自信地回答:“债券交易员。唐恩就是做这个的,他带我去过他的办公室”。男子笑了笑,回答道:“是一个不错的职业。”
MOVA 也能流利地说英语,下面就还原了《王牌特工:特工学院》中「看到西装男人别去惹他,你打不过他的」的经典名场面。这里可以看到,人物的口型、表情与语调的变化严丝合缝,告别了以往 AI 视频中的「对口型感」。
提示词:画面中是在一处英国大街上发生的谈话,背景包含了西欧风格的建筑物、电线杆和一面英国的国旗。画面左边穿着灰色西装、戴着墨镜的男子说道:“成为绅士和口音毫无关系,真正的高贵在于超越自我。” 右边穿着黄黑色夹克、戴着白色帽子的青年脸色逐渐严肃地回答道:“我记住了。” 随后陷入了沉思。(原提示词为英文)
涌现出来的进阶能力:视频文字生成
有意思的是,在提升 MOVA 模型口型精度和语音能力的过程中,OpenMOSS 团队还收获了一个「意外之喜」:文字生成能力
MOVA 能够生成视频中的文字内容。比如下面这个例子,虽在「快」这里还有些瑕疵,但整体效果已超越了很多前沿闭源模型,表现令人相当满意。
提示词:画面开始于创智学院宽敞而对称的中庭,日光透过透明的玻璃天窗洒落下来。镜头沿着中轴线缓缓向前移动,空间逐渐发生变化,光线化作细小的粒子向上飘散,空中浮现出若隐若现的数据流与抽象的智慧图形。天窗之外的天空逐渐转化为深邃的星空,仿佛整座建筑与宇宙连通。随着镜头推进,玻璃与植物微微发光,整个大厅呈现出安静而充满想象力的未来氛围。画面接近尾声时,所有光芒在中央汇聚,形成闪耀着星光的文字:“上海创智学院祝您 2026 年元旦快乐!” 神秘而震撼的电子配乐始终伴随画面,在文字出现时略微收束。
作为对比,Veo 3.1 使用同样提示词的结果是这样的:
在惊艳的效果背后,更加值得关注的是 MOVA 模型的一体化架构。下面我们就来系统性地看看 MOVA 背后的技术。
背后的技术
从模态孤岛到端到端共鸣
全球音视频生成 AI 模型正处于一个从「纯视频生成」向「音视频端到端生成」(Native Video-Audio Generation)跨越的关键时期,视频生成 AI 模型的优先目标已不再仅仅是更拟真的画面,而是声音与视觉的完美共鸣。
在音视频生成问题上,传统的解决方案是「级联流水线」:先生成无声的视频,再通过 Video-to-Audio 模型配音;或者先有语音,再驱动画面。这种「拼凑」感导致了音画割裂 —— 爆炸声可能比火光慢半拍,人物口型由于缺乏底层交互而显得僵硬。
对此,OpenMOSS 团队决定挑战最为困难,但效果更好的音视频端到端生成模式。
他们针对音视频生成任务专门构建了一个基础模型 MOVA(MOSS Video and Audio),其不仅能合成与视频同步的语音,也能精准地合成环境音效。从名字也能看出来,该模型属于模思智能的 MOSS 系列 —— 此前已有文本到对话生成模型 MOSS-TTSD、语音到语音生成模型 MOSS-Speech 以及多说话人语音识别模型 MOSS-Transcribe-Diarize。
MOVA 是一个规模约 320 亿参数(MoE 架构,推理时激活 180 亿参数)的模型,支持图像 - 音视频和文本 - 音视频的处理方式。
具体技术上,OpenMOSS 团队进行了模型架构、数据工程、训练策略等多方面的创新,验证了音视频大模型的规模化趋势与性能提升。
下面我们就来看看 MOVA 是如何炼成的。
异构双塔与跨模态时间对齐
针对音频和视频两个模态本身的信息密度,MOVA 巧妙地搭建了一套非对称双塔架构,结合了大尺寸的预训练视频塔和小尺寸的预训练音频塔。
具体来说,OpenMOSS 团队采用了 14B 参数的 Wan 2.2 I2V 作为视频骨干网络(用于图像 + 文本条件的 I2VA),并预训练了 1.3B 的文本到音频扩散模型作为音频骨干网络。
MoVA 通过一个双向桥接模块将一个 A14B 视频 DiT 主干网络与一个 1.3B 音频 DiT 主干网络耦合在一起,实现模态融合与交互
在这两座「塔」之间,团队引入了一个双向桥接模块(Bridge)。这个模块的存在,让视频与音频的隐藏状态在每一层都能进行深度的交叉注意力运算。这意味着画面在生成的每一瞬间,图像都在感知声音的节奏,而音频也在捕捉画面的光影。
然而,音视频的物理属性天然互斥。视频通常以每秒 24 帧的频率离散存在,而音频信号的密度则要高出几个量级。为了防止两者在生成过程中产生时间轴上的「漂移」,团队设计了 Aligned ROPE(对齐旋转位置嵌入)机制。通过精确的缩放比例映射,视频与音频的 Token 被巧妙地放置在了同一个物理时间尺度上,避免了音频和视频模态的天然不对齐。
多阶段细粒度数据管线
成功的模型根基于架构,更离不开数据。多阶段的高质量音视频数据处理管线是 MOVA 成功规模化的保障。
为了把海量数据真正转化为模型训练真正用得上的知识,OpenMOSS 团队构建了一套涵盖三阶段的精细化管线。
三阶段的数据处理流程:第一阶段,将原始数据预处理为固定长度的视频片段,分辨率为 720p,帧率为 24fps,时长为 8.05 秒。第二阶段,根据音频质量、视频质量以及音视频同步性对这些片段进行筛选,以获得高质量且同步的视频片段。第三阶段,分别使用音频理解模型和视觉理解模型对视频中的音频和视觉信息进行单模态标注,并最终利用大语言模型将这些单模态描述进行融合,形成细粒度音视频描述。
相比于传统的视频数据处理管线,MOVA 提出的管线尽可能多地保留了原始音视频数据,减少了裁剪和丢弃,并且通过细粒度的标注避免不同类型和质量的数据之间互相影响,使得模型具备了复杂场景泛化的潜力。
多阶段规模化策略
音视频生成的大规模训练是一项计算量非常大的任务,在大规模训练过程中,MOVA 团队展现了敏锐的工程直觉,设计了三阶段由粗到细的训练策略。首先,为了平衡随机初始化的 Bridge 模块与已经具备强大预训练先验的双塔,他们采用了异构学习率的策略。Bridge 模块的学习率被设为两倍于骨干塔,从而加快 Bridge 模块的参数更新效率,取得比较快的初步收敛。
不同训练阶段口型同步指标随着训练步数的持续下降趋势
为了提升训练效率,MOVA 将训练过程分为了三个阶段,360P 训练、360P 退火训练以及 720P 训练,并持续监控口型同步指标随着训练步数增长的变化。更有趣的创新在于 Dual Sigma Shift(双模态噪声偏移)。对于音视频双模态联合去噪的模型,业界并没有明确最优的加噪方案,由于音频和视频模态天生的特性,使用同样的噪声偏移不一定能达到最优的学习效果,可能会导致隐式的模态依赖。基于这个猜测以及先前的研究工作,因此,MOVA 在第一阶段训练中对于音频和视频模态使用了不同的 Sigma Shift 进行加噪,希望避免可能出现的隐式模态依赖。
具体来说,一开始的 Stage 1 用的是 360p 的低分辨率,本质目标不是追求画面细节,而是让模型尽快学会「音频和嘴型应该怎么对齐」。因为 Bridge 是随机初始化的,如果一开始就追求高画质,很容易学不稳或者学偏。所以这里故意让视频端去更激进地去噪,音频端相对平滑,再配合比较高的文本 dropout,让模型不得不依赖音频和视觉之间的桥接关系来建立对齐能力。你可以从曲线看到,虽然一开始误差还有点波动,但整体 LSE-D 很快下降、LSE-C 明显上升,说明模型逐步抓住了嘴型同步的基本规律。
进入 Stage 2 之后,分辨率仍然是 360p,但重点从「学会对齐」转为「把对齐质量拉高、稳定下来」。这里把音频和视频的噪声调度对齐起来,本质是在时间尺度上让两种模态更加同步,这样跨模态注意力会更稳定;同时降低文本 dropout,让文本重新参与细化语义和细节,而不是完全靠音视频对齐硬学;再通过响度归一化避免 CFG 带来的音量失真。你能看到在这一段,LSE-D 继续缓慢下降,LSE-C 有一个明显跃升,说明模型不只是「能对上」,而是「对得更自信、更一致」。
最后的 Stage 3 才真正把分辨率拉到 720p,这一步更像是「高清重制」。此时模型已经具备稳定的跨模态对齐能力,所以可以安全地把算力用在更高分辨率和更细致的空间建模上,而不会破坏之前学到的嘴型同步结构。为了应对高分辨率带来的显存和收敛速度变化,引入了更细粒度的 checkpoint 和更激进的并行优化策略。从曲线看,这一阶段 LSE-D 进一步压低并趋于平台,LSE-C 稳定在较高水平,说明性能已经进入收敛区间,更多是在做质量的精修。
Agent 工作流
让模型更好理解需求
拥有了高性能的基模,并不意味着能直接产出完美的视听大片。在 MOVA 的实际部署中,研发团队设计了一套 Agent 工作流,以适应不同粒度和风格的用户输入,最大程度激发模型能力。
三阶段协同工作流
为了解决视频生成中常见的「描述与视觉不一致」问题 —— 即当用户文本与初始帧存在细微偏差时,生成过程容易偏离首图先验并误解用户意图 ——MOVA 并未让基模单独承担对齐压力,而是设计了一套三阶段生成流程,将理解、改写与生成分工协作,显著提升首帧一致性与指令遵循能力。
三阶段 Agent 工作流,赋予 MOVA 产品级理解能力,更好的处理更加原始、多样的用户需求。
这种多模型协同的思路,让 MOVA 不仅仅是一个基模,更像是一套成熟的视听内容生产系统。
除此之外,MOVA 也展现出扎实的纯文本音视频生成能力:即使不提供真实首帧,用户仅需输入文本,系统会自行传入一张纯色占位图作为初始条件,并生成音画同步、观感统一的高质量视频,从而降低素材门槛,让「零素材创作」成为可能。
双重 CFG:在画质与对齐间寻找平衡
在推理逻辑的底层,OpenMOSS 团队引入了双重 Classifier-Free Guidance (Dual CFG) 公式。
在传统的视频生成中,CFG 往往只服务于「让画面更像描述」。但在音视频联合生成任务中,存在文本指令和模态桥接(Bridge)两个控制源。如果盲目追求提示词契合度,往往会牺牲音画同步率;反之亦然。
MOVA 允许用户根据场景调整这两者的权重:
针对高强度引导可能带来的「音量爆炸」和波形畸变,MOVA 还内置了 LUFS 响度归一化算法,将输出音频强制修正至 -23 dB 的广播级标准,确保了即便在极端推理参数下,声音依然清晰自然。
实验表现
打破闭源巨头的技术垄断
为了验证 MOVA 的视听对齐能力,OpenMOSS 团队将其与目前开源社区最顶尖的两个项目 LTX-2 和 Ovi,以及「WAN 2.1 + MMAudio」这一传统级联方案进行了全方位对比。
最佳的口型精度
在 Verse-Bench 上的视听生成性能的量化比较。Audio 和 AV-Align 指标是在所有子集上进行评估的;Lip Sync 和 Speech 指标是在 Verse-Bench set3 上进行评估的;ASR Acc 是在团队提出的多说话人子集上进行评估的。加粗和下划线的数值分别表示最佳和第二佳结果。
在最能拉开差距的口型同步(Lip-sync)任务中,MOVA 展现出了明显的优势。根据 Lip Sync Error 指标,在开启 Dual CFG 模式后,MOVA-720p 的 LSE-D 得分为 7.094,LSE-C 得分为 7.452。其次,在反应语音准确度和说话人切换准确度的 cpCER 指标上,MOVA 也取得了最佳的结果。
竞技场真实评估
考虑到当前音视频生成模型的客观评价体系仍不够完善,MOVA 引入了竞技场(Arena)人为主观评测范式,包含了全球最新的开源音视频生成模型,累计获得 5000 次有效投票并对结果进行了系统统计。评测结果显示,MOVA 生成内容在整体偏好上保持领先:其在对战中更频繁获得用户选择,ELO 评分达到了 1113.8(初始分 1000),显著高于各基线模型;并稳定保持超过 50% 的胜率,其中面对 OVI 和级联系统(WAN+MMAudio)的胜率更是超过了 70%。
开源突围与国产生态
补全多模态拼图
MOVA 的出现对于音视频生成 AI 方向有着重要意义。目前全球范围内,处于第一梯队、被大众或行业认可的模型,如我们耳熟能详的 Sora 2、Veo 3、Kling 2.6、Runway Gen-3 等,绝大多数是闭源的,它们甚至仅向小部分付费用户开放;而在开源的另一边,Wan 2.1、HunyuanVideo 等模型着重于纯视频生成的质量,支持端到端音视频的较少。
MOVA 的出现,改变了「领先技术不开源」的现状。
作为中国首个高性能开源音视频模型,MOVA 通过全栈开源的方式,将训练代码、推理代码、模型权重以及微调代码全部公开。这意味着,开发者不仅可以用 MOVA 生成视频,也能深入底层,理解双塔 Diffusion 架构如何处理多模态数据的交互,甚至在此基础上训练出垂直领域的专用模型。
MOVA 支持了 SGLang 等主流高性能推理框架。其 360p 版本更加面向于较低的硬件门槛,让音视频生成不再是仅限于 GPU 集群的奢侈游戏。在整个音视频生成领域趋向于闭源的大环境下,MOVA 的出现是一次开源社区的突围,它补全了中国音视频生成基模的开源版图,或许能够驱使音视频生成领域走向开源共创。
在 MOVA 音视频大模型的研发进程中,昇腾AI提供了全栈算力支撑,助力MOVA完成了从数据标注到预训练验证的关键环节。目前,MOVA 已成为昇腾首个支持的开源多模态音视频一体生成模型,微调与推理功能已同步上线社区。
MOVA 的发布,距离模思智能上一款引发行业热议的语音识别模型 ——MOSS-Transcribe-Diarize 仅仅过去了 20 多天的时间。而 MOSS-Transcribe-Diarize,也在 MOVA 的快速迭代中发挥了关键作用。
如果说上一次发布的语音识别模型让 AI 学会了在嘈杂真实环境中「听懂」人类复杂对话的能力,那么今天发布的 MOVA,则宣告了他们让 AI 具备了「创造」同步音视频的能力。
从感知到生成,从单一模态到端到端多模态,从理解到生成,环环相扣,死磕情境智能(Contextual Intelligence)每一个关键环节的模思智能正在快速构建它的多模态基础模型版图。
研究、创新、与学生培养
MOVA 是上海创智学院与模思智能在研究、创新和学生培养模式上的一次成功实践。上海创智学院「研创学」模式成功融合了学术研究的深度与产业落地的敏锐度,让研究不再拘泥于简单场景,也同时深入到了工业场景,并从中培养一流 AI 人才。
在上海创智学院,学生被视为共同创新创业的合伙人,他们在 MOVA 这种千卡级规模的工业级基模训练中承担核心任务。这种阵地式培养让学生在解决大规模训练 Infra 框架、高性能海量数据分布式处理框架、模型架构从 0 到 1 设计等硬核工程问题的过程中,积累了极具稀缺性的实战经验。
模思智能作为创新的出口,一方面为人才培养提供了验证大规模基模性能的闭环环境,并通过持续的技术迭代,将前沿理论转化为可商用的生产力工具。在这一机制下,技术研发与商业价值形成了互为因果、相互加速的良性循环。
这一模式更深远的意义在于对 AI 顶尖人才培养路径的重塑,让年轻大脑在技术演进最前线接受真火淬炼,为未来的 AGI 竞争储备具备破局能力的澎湃力量。