C114通信網(wǎng)  |  通信人家園

人工智能
2024/8/2 15:59

最強(qiáng)開源文生圖模型一夜易主:SD原班人馬打造,要發(fā)SOTA視頻生成模型

智東西  

最強(qiáng)開源文生圖模型一夜易主!

昨日晚間,開源文生圖模型霸主 Stable Diffusion原班人馬,宣布推出全新的圖像生成模型 FLUX.1

FLUX.1 包含專業(yè)版、開發(fā)者版、快速版三種模型,其中前兩款模型擊敗 SD3-Ultra 等主流模型,較小規(guī)模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL E 3 等更大的模型。

  ▲ FLUX.1 ELO 分?jǐn)?shù)與主流模型對比

FLUX.1 在文字生成、復(fù)雜指令遵循人手生成上具備優(yōu)勢。以下是其最強(qiáng)的專業(yè)版模型 FLUX.1 [pro] 生成圖像示例,可以看到即使是生成大段的文字、多個人物,也沒有出現(xiàn)字符、人手等細(xì)節(jié)上的錯誤。

  ▲ FLUX.1 [pro] 生成圖像示例

FLUX.1 現(xiàn)已在開源平臺 Replicate 上可用,以下是我用提示詞“世界上最小的黑森林蛋糕,手指大小,被黑森林的樹木包圍”,在三款模型上生成的圖像,用時分別為 17.5s、12.2s、1.5s

  ▲ 三款模型生成對比

FLUX.1 同時開放了 API(應(yīng)用程序接口),按圖像張數(shù)定價,三款模型的價格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元(約合人民幣 0.4 元、0.22 元、0.022 元)。

FLUX.1 背后的公司名為 Black Forest Labs(黑森林實(shí)驗(yàn)室),由 Stable Diffusion 原班人馬、多位 Stability AI 前研究員成立。與 Stability AI 類似,黑森林致力于研發(fā)優(yōu)質(zhì)多模態(tài)模型并開源,目前已完成 3100 萬美元(約合人民幣 2.25 億元)的種子輪融資。

黑森林還預(yù)告不久之后將發(fā)布 SOTA(當(dāng)前技術(shù)指標(biāo)第一)視頻模型。從其放出的 Demo 來看,無論是流暢度、穩(wěn)定性還是物理模擬都達(dá)到第一梯隊水平,該公司或許會成為視頻生成領(lǐng)域的一匹黑馬。

  ▲ 視頻生成模型預(yù)告

三款模型試用地址:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

擅長生成文字、人手,三種模型規(guī)模秒級生成

FLUX.1 在視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性等方面性能優(yōu)越,其具有三大特點(diǎn):文字生成、復(fù)雜構(gòu)圖、人手描繪。

文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1 可以處理重復(fù)字母的棘手單詞,例如生成一個黑森林 Flux Schnell 蛋糕

  ▲ 黑森林 Flux Schnell 蛋糕

在構(gòu)圖方面,F(xiàn)LUX.1 擅長按照圖像中事物應(yīng)該位于哪里等復(fù)雜指示進(jìn)行操作。例如,F(xiàn)LUX.1 完美地演繹了這段提示詞:三個魔法巫師站在一張黃色桌子上,每個巫師都拿著一個標(biāo)志。左邊,一個穿著黑色長袍的巫師拿著一個寫著“AI”的標(biāo)志;中間,一個穿著紅色長袍的女巫拿著一個寫著“is”的標(biāo)志;在右邊,一個穿著藍(lán)色長袍的巫師拿著一個寫著“cool”的標(biāo)志。

  ▲ 復(fù)雜構(gòu)圖

人手一直是多模態(tài)生成模型的重災(zāi)區(qū)。FLUX.1 生成的人手圖像雖然還不夠完美,但實(shí)現(xiàn)了很大的進(jìn)步。

  ▲ 人手

FLUX.1 共有專業(yè)版、開發(fā)者版、快速版三種版本。

其中,FLUX.1[pro]是最先進(jìn)的一個版本,具有頂級的即時跟蹤、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性,面向?qū)I(yè)用戶提供定制的企業(yè)解決方案。

  ▲ FLUX.1 [pro] 生成圖像示例

FLUX.1[dev]面向非商業(yè)應(yīng)用,它從 FLUX.1 [pro] 提煉而來,具有相似的質(zhì)量和能力,同時比相同尺寸的標(biāo)準(zhǔn)模型更高效。

  ▲ FLUX.1 [dev] 生成圖像示例

FLUX.1[schnell]是三款模型中最快的,專為本地開發(fā)和個人使用而定制,并根據(jù) Apache 2.0 標(biāo)準(zhǔn)許可公開提供。

  ▲ FLUX.1 [schnell] 生成圖像示例

FLUX.1 現(xiàn)已在開源平臺 Replicate 上可用,只需一行代碼即可在云端運(yùn)行,用戶也可以下載模型權(quán)重并以編程方式運(yùn)行。FLUX.1 的 API 也同步開放,三款模型的價格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元(約合人民幣 0.4 元、0.22 元、0.022 元)。

擊敗 MJ V6、DALL E 3,技術(shù)報告即將發(fā)布

性能方面,F(xiàn)LUX.1 經(jīng)過特別微調(diào),在預(yù)訓(xùn)練中保留了整個輸出多樣性,在指令遵守、視覺質(zhì)量、尺寸 / 長寬變化等多個方面樹立了新標(biāo)準(zhǔn)。

其中 FLUX.1 [pro] 和 [dev] 兩款模型,在 5 項測評標(biāo)準(zhǔn)中都超過了 Midjourney v6.0、DALL E 3 和 SD3-Ultra 等熱門模型。

FLUX.1 [schnell] 作為輕量級模型,不僅優(yōu)于同類競爭對手,還優(yōu)于 Midjourney v6.0、DALL E 3 等強(qiáng)大的非蒸餾模型。

  ▲ FLUX.1 性能與主流模型對比

此外,所有 FLUX.1 模型均支持 0.1 和 2.0 百萬像素的多種寬高比和分辨率。

  ▲ 寬高比 / 分辨率變化

如此強(qiáng)大的性能是怎么做到的?

在模型架構(gòu)上,F(xiàn)LUX.1 采用基于多模態(tài)和并行擴(kuò)散 Transformer 模塊的混合架構(gòu),并將其擴(kuò)展到 12B 參數(shù)。

團(tuán)隊通過建立流匹配(Flow Matching)來改進(jìn)最先進(jìn)的擴(kuò)散模型,并通過結(jié)合旋轉(zhuǎn)位置嵌入(Rotary Position Embedding)和并行注意力層,來提高模型性能和硬件效率。更詳細(xì)的技術(shù)報告將在不久后發(fā)布。

SD 原班人馬,2.25 億種子輪,要發(fā) SOTA 視頻模型

黑森林實(shí)驗(yàn)室由 Stable Diffusion 的創(chuàng)始團(tuán)隊成立,該團(tuán)隊此前的工作還包括高質(zhì)量圖像生成模型 VQGAN、視頻生成模型 Stable Video Diffusion 等。

Stable Diffusion 最初的 5 位作者中,4 位曾加入 Stability AI 并持續(xù)開發(fā) SD 后續(xù)版本的成員,包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz 以及 Patrick Esser,都在黑森林實(shí)驗(yàn)室的創(chuàng)始團(tuán)隊中。

  ▲ Stable Diffusion 作者、黑森林實(shí)驗(yàn)室創(chuàng)始團(tuán)隊

該團(tuán)隊稱,其核心信念是開發(fā)廣泛可訪問的模型,促進(jìn)研究界和學(xué)術(shù)界的創(chuàng)新和協(xié)作,并提高模型透明度。

黑森林實(shí)驗(yàn)室宣布已完成 3100 萬美元(約合人民幣 2.25 億元)的種子輪融資,由知名風(fēng)投機(jī)構(gòu) a16z(Andreessen Horowitz)領(lǐng)投,VR 制造商 Oculus 的 CEO Brendan Iribe、創(chuàng)企孵化器 YC 的 CEO 陳嘉興(Garry Tan)、英偉達(dá)研究員 Timo Aila 等專家及 AI 公司跟投,還收到了來自 General Catalyst 等一線基金的后續(xù)投資。

該團(tuán)隊的顧問委員會,包括在內(nèi)容創(chuàng)作行業(yè)擁有豐富經(jīng)驗(yàn)的前迪士尼總裁 Michael Ovitz,以及神經(jīng)風(fēng)格轉(zhuǎn)換的先驅(qū) Matthias Bethge 教授。

剛剛創(chuàng)業(yè)的 AI 大神安德烈 卡帕西(Andrej Karpathy)為黑森林團(tuán)隊送上祝福,并稱“開源的 FLUX.1 圖像生成模型看起來非常強(qiáng)大”。

  ▲ 卡帕西評論

創(chuàng)始團(tuán)隊的前領(lǐng)導(dǎo) ——Stability AI 前 CEO 埃馬德 莫斯塔克(Emad Mostaque)也發(fā)來賀電,還說“之前能與他們合作是我的榮幸,我相信他們會繼續(xù)在生成每一個像素的旅程中突破界限”。

  ▲ 莫斯塔克評論

在下一步的工作上,黑森林預(yù)告將發(fā)布一款 SOTA 文生視頻模型,“讓所有人都能將文本轉(zhuǎn)為視頻”。該模型將建立在 FLUX.1 的基礎(chǔ)上,“以高清和前所未有的速度實(shí)現(xiàn)精確創(chuàng)作和編輯”。

  ▲ 視頻生成模型預(yù)告

結(jié)語:多模態(tài)大模型領(lǐng)域黑馬涌現(xiàn)

在眾多大廠、創(chuàng)企狂卷文生視頻之際,文生圖領(lǐng)域突然迎來黑馬。“橫空出世”的 FLUX.1 的不僅展現(xiàn)出卓越的性能,在文字生成、復(fù)雜構(gòu)圖、人手描繪等方面突破難關(guān),還以多樣化的版本滿足不同用戶的需求。

黑森林實(shí)驗(yàn)室憑借著 Stable Diffusion 原班人馬的強(qiáng)大實(shí)力,獲得了豐厚的種子輪融資,也吸引了眾多行業(yè)大咖的關(guān)注與支持。其后續(xù)將發(fā)布的視頻模型,又將為文生視頻領(lǐng)域注入新的活力。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141