昆仑天工SkyReels-V4强势杀入顶级牌桌,多模态输入、音画同步直出影院级大片

2026-03-05 11:22:273


SkyReels-V4

昆仑万维 Skywork AI 团队研发的全球首个同时实现多模态输入支持、音视频联合生成、生成 / 修复 / 编辑全能力统一的多模态视频基础模型,采用双流多模态扩散 Transformer(MMDiT)
架构,共享基于多模态大语言模型(MLLM)的文本编码器,可兼容文本、图像、视频片段、掩码、音频参考等丰富的多模态指令;模型支持最高1080p 分辨率、32FPS、15 秒时长的影院级同步音视频生成,通过低分辨率全序列 + 高分辨率关键帧联合生成的效率方案大幅降低高规格生成的算力成本;该模型在 Artificial Analysis 公开竞技场音视频生成赛道位列全球第二,在自研 SkyReels-VABench 人工评估中综合得分超越 Veo 3.1、Kling 2.6 等主流商用模型,在指令跟随、运动质量维度表现尤为突出。


详细总结
一、模型核心定位与核心创新

SkyReels-V4 是昆仑万维 Skywork AI 团队推出的统一多模态视频基础模型,核心解决了行业现有模型能力碎片化的痛点 —— 即无法在单一框架内同时实现多模态输入兼容、音视频联合生成、生成 / 修复 / 编辑全能力覆盖。其核心创新点包括:

全球首创的能力统一
首个同时支持文本、图像、视频、掩码、音频参考等丰富多模态输入,实现音视频联合生成,且将生成、修复、编辑三大类任务纳入统一架构的视频基础模型。
双流 MMDiT 架构设计
采用对称的视频 + 音频双分支 MMDiT 架构,共享基于 MLLM 的文本编码器,实现了跨模态语义的统一理解与精准的音画时序同步。
全任务统一的修复框架
通过通道拼接方案,将文生视频、图生视频、视频延展、精细化编辑等所有视频操作,统一转化为不同掩码配置下的修复问题,实现单一模型支持全工作流。
高效的高分辨率生成方案
通过低分辨率全序列 + 高分辨率关键帧联合生成,搭配专用超分与插帧模块,解决了 1080p 长视频生成的算力瓶颈,兼顾生成质量与推理效率。
二、核心架构技术细节
1、双流 MMDiT 音视频联合生成架构
模型采用视频分支与音频分支并行的对称双骨干设计,两个分支均基于 MMDiT 框架构建,共享同一个冻结的 MLLM 文本编码器,实现多模态指令的统一语义理解。

混合双流 + 单流 DiT 模块
前 M 层为双流设计,视频 / 音频与文本 token 保留独立参数,实现强跨模态对齐;后 N 层转为单流设计,共享参数处理拼接后的 token,最大化计算效率,同时通过额外的文本交叉注意力层强化文本语义引导,避免语义稀释。
双向音视频交叉注意力
每个 Transformer 块均包含成对的交叉注意力层,音频分支关注视频特征,视频分支同步关注音频特征,实现全网络深度的同步信息交互。
RoPE 时序对齐
通过缩放音频分支的 RoPE 频率,匹配视频分支的时序分辨率,解决音视频时序维度不匹配的问题,保障音画时空对应关系。
训练目标
采用流匹配框架,实现视频与音频分支的联合优化,同步学习模态专属特征与跨模态同步关系。
2、基于通道拼接的统一视频修复框架

视频分支通过通道拼接的输入设计,将所有视频操作统一为修复任务,输入由噪声视频潜码、条件帧潜码、二进制掩码三个张量沿通道维度拼接而成,通过不同的掩码配置实现全任务支持:


3、多模态上下文学习机制

模型通过 MLLM 的多模态理解能力 + 自注意力的上下文注入,实现丰富的参考条件控制:

视觉参考:参考图像 / 视频帧通过 MLLM 提取语义嵌入,同时经 VAE 编码后沿时序维度拼接至视频潜码前,通过偏移 3D RoPE 区分条件与生成内容,实现细粒度的视觉特征参考。
音频参考:参考音频经编码后作为音频分支的上下文条件,实现音色、风格、内容的精准控制。
4、 超分与插帧 Refiner 模块

为进一步提升画质与时序流畅度,模型配套了专用的 Refiner 模块,基于基础模型输出的低分辨率全序列与高分辨率关键帧,完成超分与插帧;同时采用 VSA 可训练稀疏注意力机制,将注意力计算成本降低约3 倍,让高分辨率视频处理具备工程落地性。

三、数据流水线建设

模型构建了覆盖图像、视频、音频三模态的完整数据流水线,保障训练数据的质量与多样性:

数据来源
包含公开数据集、授权商用影视 / 短视频数据、针对稀疏场景构建的合成数据(多语言文本、多语言语音、多模态编辑任务)三大类。
分模态处理
图像:完成去重、质量过滤、类别均衡三大步骤;
音频:完成品类分类、质量过滤、时长规整、内容识别、自动字幕生成;
视频:完成智能语义分段、去重、多维度质量过滤、内容均衡、音画同
校验(采用 SyncNet 过滤,仅保留偏移≤3 帧、置信度 > 1.5 的片段)。
三级字幕体系
构建短字幕、长字幕、结构化字幕三类标注,训练后期仅使用结构化字幕,通过 prompt 增强器将用户自由输入转化为结构化格式,提升指令跟随能力。
四、渐进式多阶段训练策略

模型采用分阶段渐进式训练范式,分为四大核心阶段,完整训练规划如下表所示:


五、模型性能评估结果

模型通过公开竞技场榜单与专业人工评估两大维度完成全面验证,核心结果如下:

公开榜单表现


在 Artificial Analysis Video Arena 的文生视频 + 音频生成赛道,截至2026 年 2 月 25 日,模型在所有参赛系统中位列全球第二,对标模型包括 Veo 3.1、Sora-2、Kling 3.0 等主流商用系统。
专业人工评估
基于自研的 SkyReels-VABench 基准(2000 + 条多语言、多场景、多复杂度 prompt,50 名专业评估人员),模型取得全参评模型中最高的综合平均分,具体表现如下:


两两对比验证


在与 Veo 3.1、Kling 2.6、Seedance 1.5 Pro、Wan 2.6 的两两对比中,模型在整体质量上的 “Good” 评级占比均显著高于对标模型。
六、全场景应用能力


模型覆盖生成、修复、编辑三大类核心场景,支持超过 20 种细分视频创作任务,核心应用包括:

生成类
多图像 + 多音频参考生成、图像 + 动作参考生成、图像 + 表情参考生成等,支持多镜头叙事的影视级内容创作。
修复类
任意区域内容修复、主体 / 属性 / 背景替换、参考图像引导的风格化修复等。
编辑类
水印 / 字幕 /logo 智能移除、主体添加 / 删除 / 修改、局部属性编辑、背景替换、全局风格迁移、镜头运动控制、场景天气 / 光照 / 时间属性修改、参考引导的动作 / 表情 / 特效迁移等。
关键问题与解答
问题 1:相较于同期主流的音视频生成模型,SkyReels-V4 最核心的技术突破与差异化优势是什么?

答案:SkyReels-V4 最核心的技术突破与差异化优势,是在全球范围内首次实现了三大核心能力在单一架构内的完整统一,解决了行业现有模型能力碎片化的核心痛点。同期主流模型均存在明显能力短板:部分模型仅支持视觉生成无原生音频输出,部分模型仅实现音视频联合生成但缺乏完善的修复编辑能力,部分模型支持多模态参考但无法实现全任务统一。而 SkyReels-V4 在单一框架内同时实现了:① 文本、图像、视频、掩码、音频参考的全品类多模态输入支持;② 原生的音视频联合生成与精准时序同步;③ 生成、修复、编辑全任务的统一处理。同时,其配套的双流 MMDiT 架构、统一通道拼接修复框架、多模态上下文学习机制,让该模型在实现能力统一的同时,保持了影院级的生成质量与业界顶尖的性能表现。

问题 2:1080p 高分辨率、长时长视频生成通常面临极高的算力成本,SkyReels-V4 是如何解决这一工程落地瓶颈的?

答案:SkyReels-V4 通过分层生成策略 + 算力优化机制的组合方案,在保障生成质量的前提下,大幅降低了高规格视频生成的算力成本,核心分为两大环节:

核心生成策略优化
放弃直接生成 1080p 全序列高分辨率视频的传统方案,采用低分辨率全序列 + 高分辨率关键帧联合生成的策略 —— 基础模型先生成完整时长的低分辨率视频序列,同时生成对应高分辨率的关键帧,再通过专用的超分与帧插值模块,基于低分辨率序列和高分辨率关键帧,重建出时序一致的全时长 1080p 高分辨率视频,从根源上降低了扩散模型的生成算力开销。
注意力机制算力优化
在超分与插帧的 Refiner 模块中,采用了 VSA(Video Sparse Attention)可训练稀疏注意力机制,通过 “粗阶段筛选关键 token 区域 + 细阶段仅对关键区域执行密集注意力” 的两级设计,在不损失生成质量的前提下,将注意力计算成本降低了约3 倍,让高分辨率视频的训练与推理具备了工程落地性。
问题 3:SkyReels-V4 的综合性能在全球视频生成赛道处于什么水平,其核心的竞争力维度是什么?

答案:SkyReels-V4 的综合性能处于全球视频生成赛道的第一梯队,多项核心指标达到业界顶尖水平,具体表现如下:

公开权威榜单表现
在行业广泛认可的 Artificial Analysis Video Arena 文生视频 + 音频生成赛道,截至 2026 年 2 月 25 日,模型位列全球第二,对标并超越了包括 Veo 3.1、Sora-2、Kling 3.0、Wan 2.6 在内的多款全球主流商用模型。
专业人工评估表现
在自研的 SkyReels-VABench 专业评估基准中,模型取得了全参评模型中最高的综合平均分,在与 Veo 3.1、Kling 2.6、Seedance 1.5 Pro、Wan 2.6 的两两对比中,整体质量的 “Good” 评级占比均显著高于对标模型。

核心竞争力维度

模型的核心优势集中在指令跟随能力与运动质量两大维度,同时在视觉质量、音画同步、音频质量上均保持了业界顶尖水平;而其统一的生成 / 修复 / 编辑全能力覆盖,也让其相较于仅支持生成的模型,具备了更强的专业内容创作落地价值。

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

标签: Sora综合

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。