影片创作迎来新纪元!SkyReels-V2 和 A2 双剑合璧,打破时长壁垒,赋予镜头魔法。用 AI 技术演绎无限创意,让每一帧画面都栩栩如生,低成本打造电影级视觉盛宴。

当前 AI 视频生成领域,普遍面临诸多困境:模型大多数不开源,视频生成长度最多10秒,剧情还没开始就结束了;用户难以二次开发与深度定制;效果一言难尽,让它来个王家卫风格的逆光特写,结果呢,给你整出个表情包;使用门槛高,普通创作者难以驾驭;操作复杂,上手难度大。此外,这些闭源模型的使用成本居高不下,对于预算有限的创作者和团队来说,无疑是巨大的障碍。

全球首个开源 SOTA 无限时长电影级视频的 AI

在 AI 视频生成领域,昆仑万维再次引领行业潮流,继年初开源 SkyReels-V1、A1 后,持续迭代,近期重磅推出 SkyReels-V2 和 SkyReels-A2 两大模型,为创作者带来前所未有的创作自由和强大的技术支持。其中,SkyReels-V2 作为全球首个开源的 SOTA 级无限时长电影级视频生成模型,彻底打破了传统视频生成的时长限制,让创作者能够随心所欲地构建长镜头叙事,为影视创作开辟了全新的可能性。

  • 官网地址:https://www.skyreels.ai/home
  • GitHub地址:https://github.com/SkyworkAI/SkyReels-V2 & https://github.com/SkyworkAI/SkyReels-A2
  • HuggingFace地址:https://huggingface.co/Skywork/SkyReels-V2 & https://huggingface.co/Skywork/SkyReels-A2
  • 论文地址: & https://arxiv.org/pdf/2504.02436

SkyReels-V2:无限时长的电影级视频生成

技术架构与训练方法

SkyReels-V2 的核心在于其独特的技术架构和训练方法。它通过多模态大语言模型(MLLM)和子专家模型的结合,精确理解视频内容的结构化描述,包括主体类型、外观、动作、表情、位置等多维度信息,以及镜头类型、角度、位置和相机运动等专业电影元素。这种结构化字幕的设计,使得视频生成能够精准遵循提示词,确保创作意图得到完美呈现。

此外,SkyReels-V2 采用渐进式分辨率预训练和多阶段后训练策略,逐步提升视频生成的质量。从低分辨率的基础训练到高分辨率的精细微调,每一个阶段都经过严格的优化,确保生成视频在视觉质量、动态效果和时长上的卓越表现。而其创新的扩散强迫框架,通过非递减噪声安排,让视频内容能够无限延伸,实现了真正的无限时长电影级视频生成。


SkyReels-V2的核心创新

1. 结构化视频表示与高效标注

  • 训练了一个统一的视频理解模型 SkyCaptioner-V1:能够高效地标记视频数据,生成符合原始结构信息的多样化描述。通过这种方式,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,从而显著提高了生成视频的提示词遵循能力。此外,这个模型现在也是开源可以直接使用。
  • 半自动数据标注:结合人工验证与合成数据,高效标注百万级视频片段,确保训练数据的多样性与专业性。

2. 多阶段渐进式训练

  • 三阶段预训练:从低分辨率(256p)到高分辨率(540p),逐步提升模型对基础概念、运动模式和细节纹理的学习能力。
  • 强化学习优化运动质量:针对运动失真问题,设计半自动偏好数据生成流程,通过Direct Preference Optimization(DPO)让模型学会生成更自然的动作。
  • 扩散强制框架:引入非递减噪声调度(Non-decreasing Noise Schedule),实现稳定训练与无限长度生成。

3. 高效推理优化

  • 量化与并行策略:采用FP8量化和多GPU并行,将720p视频生成时间从5分钟缩短至1分钟内。
  • 蒸馏技术:通过DMD蒸馏(Distribution Matching Distillation)加速生成,同时保持画质。

性能表现

SkyReels-V2 通过自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影、电视剧、纪录片数据。这不仅确保了模型在人物微表情、肢体动作、场景描述、光影、画面构图等方面的精准理解与生成,还使模型在各项指标上达到了开源 SOTA 级别。如在人物表情生成方面,SkyReels-V2 支持 33 种细腻人物表情与 400 多种自然动作组合,高度还原真人情感表达,生成的视频中人物表演细节丰富且精准。在场景生成方面,基于好莱坞级的高质量影视数据训练,SkyReels-V2 生成的每一帧画面在构图、演员站位、相机角度等都具备电影级的质感。在权威评测基准V-Bench 1.0和自建SkyReels-Bench中,SkyReels-V2展现了全面优势:

  • 提示遵循性:在镜头类型、摄像机运动等专业领域准确率超过90%,显著优于现有模型。
  • 长视频生成:支持30秒以上的连贯视频生成,并通过滑动窗口与噪声稳定技术减少误差累积。
  • 多任务支持:在图像到视频(I2V)、元素组合生成(E2V)等任务中达到闭源模型(如Kling-1.6、Runway Gen-4)的同等水平。

SkyReels-A2:多元素可控的视频生成框架

SkyReels-A2 则专注于多元素视频生成任务,能够将多个视觉元素(如人物、物体、背景)根据文本提示精确地组合成连贯自然的视频。它通过精心设计的数据管道构建文本 - 参考图像 - 视频三元组,利用图像 - 文本联合嵌入模型,将多元素表示注入生成过程,平衡元素特定的一致性与全局连贯性以及文本对齐。

在架构上,SkyReels-A2 采用双流结构处理参考图像,分别提取语义特征和空间特征,并通过交叉注意力层和通道拼接的方式,将这些特征融入到视频扩散模型中。这种设计不仅保留了每个参考元素的保真度,还确保了场景的整体连贯性和自然输出。

SkyReels体验

说了这么多,我还是想动手体验一下SkyReels的视频创作能力,目前这两大模型已被融入到SkyReels官网:https://www.skyreels.ai/

开始创作之前,用户需要在 SkyReels 官方网站注册账号并登录,以获取免费的创作额度。对于需要更高创作质量和速度的用户,平台还提供了升级计划,可享受更强大的功能和更快的生成速度。

视频生成

用户可以选择使用 SkyReels-V2 进行电影级视频创作。点击 AI Video 即可直接创作AI 视频:在平台上输入详细的文本提示词,描述视频的主题、情节、人物、动作、场景等关键信息。然后,根据需要选择视频的时长、分辨率和风格等参数。点击生成按钮后,SkyReels-V2 将基于提示词和参数,自动生成高质量的视频。这是用SkyReels创作的一个30秒视频,仅供欣赏:

短剧创作

除了可以创作长达30秒的视频外,我更感兴趣的是短剧创作,作为一个零经验的技术人员,体验了一把20分钟创作一部短剧的乐趣。

选择 AI Drama,点击 Create,进入的AI短剧的创作页面,SkyReels给了一个自动生成的英文小说剧本:

看起来是一个关于程序员的爽文故事,就直接使用了,然后点击右上角的“Generate Script",SkyReels帮我自动生成了一个AI 小说剧本:

翻译了一下大概是:

总结 在城市小巷中,艾斯琳格利用她的专长黑入阿德里安的安保系统,揭露企业机密。与此同时,浑然不觉的阿德里安在企业办公室与罗斯讨论安保漏洞,而罗斯怀疑 “Vixen” 的介入。

剧本外景:城市小巷——夜晚 狭窄的小巷中,霓虹灯闪烁。艾斯琳格伪装成她的黑客化身 “Vixen”,蹲在控制面板旁。她的手指在腕戴界面飞舞,访问着禁用代码。难得有闲情散步的阿德里安·托雷斯在小巷入口处停下,被暗影中神秘的科技闪光吸引。

...

继续点击"Generate Character",SkyReels 自动生成了三个角色:

继续点击"Generate Storyboard",生成分镜脚本,这个时间稍长,大概用了5分钟左右:

可以逐个点击编辑,没问题的话可以点击"To Video"单独生成视频,或者直接点击"One-Click Video",将这个场景中的所有分镜脚本转换为视频,这个时间会较长。我测试了一下第3个分镜头的视频生成,配音也有了,很贴心。

如果不想用系统随机提供的故事剧本,也可以自己生成,我直接用中文测试了一下,也会帮我生成英文的小说剧本和角色,很方便。

总之,传统 AI 视频工具往往只能生成简短片段,动作生硬不连贯,且难以理解专业指令。相比之下,SkyReels V2 和 A2 无疑是视频创作领域的重大突破,堪称 AI 短剧创作领域里的 “好莱坞生产线”。

SkyReels V2 拥有无限时长的连续生成能力,彻底打破了时间限制,为创作者提供了广阔的叙事空间。无论是长篇故事还是复杂情节,都能一镜到底,流畅呈现。其动作流畅性更是达到了物理级真实,每一个转身、每一次奔跑都自然流畅,仿佛真人实拍,完全避免了传统 AI 视频中常见的卡顿和僵硬。此外,它还具备极高的智能理解能力,能够精准解析专业指令,无论是复杂的运镜技巧还是一镜到底等高阶拍摄手法,都能一一实现,为创作者提供了前所未有的精准控制。

而 SkyReels A2 则专注于多元素可控视频生成,能够将多个视觉元素精确组合成连贯自然的视频。它能精准理解并执行导演术语,从人物表情控制到特殊运镜技巧,构建出好莱坞级别的叙事逻辑和视觉效果。无论是人物微表情的细腻捕捉,还是光影细节的精致渲染,都能满足创作者对高品质视频的追求。

两者都代表了目前开源模型中的顶尖水平,为视频创作带来了革命性的变化,让创作者能够以极低的成本实现高质量的创意构想。

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注