2025/2/18 11:08

昆侖萬維開源國內(nèi)首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1

IT之家汪淼

昆侖萬維今日宣布開源國內(nèi)首個面向 AI 短劇創(chuàng)作的視頻生成模型 SkyReels-V1、國內(nèi)首個 SOTA 級別基于視頻基座模型的表情動作可控算法 SkyReels-A1。

昆侖萬維官方介紹稱，SkyReels-V1 針對表演細節(jié)做了打標，還對情緒、場景、表演訴求等進行處理，利用“千萬級別、高質(zhì)量”的好萊塢級別數(shù)據(jù)進行訓練微調(diào)。

此外，SkyReels-V1 可實現(xiàn)“影視級人物微表情表演生成”，支持 33 種人物表情與 400 + 種自然動作組合，還原真人情感表達，支持生成大笑、怒吼、驚訝、哭泣等微表情。

基于好萊塢級的影視數(shù)據(jù)訓練，當前 SkyReels 生成的每一幀畫面，在構圖、演員站位、相機角度等號稱都具備“電影級的質(zhì)感”。

SkyReels-V1 不僅支持文生視頻，還支持圖生視頻，號稱是“開源視頻生成模型中參數(shù)最大的支持圖生視頻的模型”，在同等分辨率下各項指標實現(xiàn)開源 SOTA。

總結來看，SkyReels-V1 可以實現(xiàn)：

影視化表情識別體系：11 種針對影視戲劇中的人物表情理解，如不屑、不耐煩、無助、厭惡等表情的理解；

人物空間位置感知：基于人體三維重建技術，實現(xiàn)對視頻中多人的空間相對關系理解，助力模型生成影視級人物站位；

行為意圖理解：構建超過 400 種行為語義單元，實現(xiàn)對人物行為的精準理解；

表演場景理解：實現(xiàn)人物-服裝-場景-劇情的關聯(lián)分析。

性能方面，在自研推理優(yōu)化框架「SkyReels-Infer」的加持下，該模型可實現(xiàn) 544p 分辨率，推理基于單臺 4090 用時 80s，還支持分布式多卡并行，支持 Context Parallel，CFG Parallel，和 VAE Parallel。

此外，模型采取 fp8 quantization 以及 parameter-level offload，滿足低顯存用戶級顯卡運行需求；支持 flash attention、SageAttention，模型編譯優(yōu)化等，進一步優(yōu)化延遲；基于開源 diffuser 庫，提升易用性。

為了實現(xiàn)更加精準可控的人物視頻生成，昆侖萬維還開源了 SOTA 級別的基于視頻基座模型的表情動作可控算法 SkyReels-A1，對標 Runway 的 Act-One，SkyReels-A1 支持視頻驅(qū)動的電影級表情捕捉。

SkyReels-A1 能夠基于任意人體比例（包括肖像、半身及全身構圖）生成人物動態(tài)視頻。

如下圖所示，將參考人物圖片（上圖）和驅(qū)動視頻（左下）同時作為輸入，在 SkyReels-A1 的能力加持下，生成了新的視頻 —— 將驅(qū)動視頻中的面部表情和表演細節(jié)“移植”到給定參考圖片的人物身上。

附開源地址如下：

SkyReels-V1：https://github.com/SkyworkAI/SkyReels-V1

SkyReels-A1：https://github.com/SkyworkAI/SkyReels-A1

技術報告：

https://skyworkai.github.io/skyreels-a1.github.io/report.pdf

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

相關鏈接