内射白浆一区二区在线观看_顶级欧美做受XXX000大乳_野狼AV午夜福利在线_国产精品亚洲一区二区无码_亚洲久热无码中文字幕人妖_国产免费人成视频在线观看_成人精品视频一区二区_自拍偷自拍亚洲精品10P_日日天日日夜日日摸_成人无码www免费视频苹果版

歡迎您訪問近期OpenAI和Stability發(fā)布Sora與Stable Diffusion 3,均采用Diffusion Transformer架!

近期OpenAI和Stability發(fā)布Sora與Stable Diffusion 3,均采用Diffusion Transformer架

更新時間:2025-04-12 15:37:58作者:佚名

序言背景 - 索拉和穩(wěn)定擴散3

最近,在同一時期,兩個AI巨頭Openai和穩(wěn)定性分別發(fā)布了他們的新作品-Sora [1]和穩(wěn)定的擴散3 [2]。令人驚訝的是,這兩家公司的研究團隊采用了擴散變壓器體系結(jié)構(gòu)。術(shù)語擴散變壓器并不熟悉它。當(dāng)DIT [3]首次掛起Arxiv時,我只是在潛意識中以為這項工作只是擴散模型家族的額外選擇,而我對此并沒有太多關(guān)注。但是今天,我們回顧了Sora和穩(wěn)定擴散的兩個熱門話題的擴散變壓器3。AI巨頭的動作為我們提供了一些靈感。

一些偏僻的單詞 - 我的一些早期隨機想法

在穩(wěn)定擴散進入公眾眼前之前,我仍然對擴散模型有一個嚴(yán)肅的刻板印象,他認(rèn)為擴散模型只是一個充滿“學(xué)術(shù)風(fēng)格”的模型。我特別記得,為了嘗試DDPM對測試集的效果,我會盡快閱讀DDPM紙,并下載模型,調(diào)試并一口氣準(zhǔn)備好測試集。結(jié)果,我發(fā)現(xiàn)需要幾分鐘的時間來拍攝一張照片,這使我感到不知所措。

在CVPR接受穩(wěn)定的擴散[4]之后,我開始再次提高對擴散模型的看法,但是當(dāng)時我對基于馴服變壓器,Maskgit和Muse代表的技術(shù)的技術(shù)更加樂觀。這主要是因為自2017年以來,變壓器對計算機視覺社區(qū)的影響已經(jīng)滲透到各個子場中,并且在無意中確定了變壓器的位置。后來,Chatgpt的出現(xiàn)進一步固定了變壓器的狀態(tài),我什至開始富有想象力:變形金剛在自然語言處理領(lǐng)域取得了巨大的成功。基于變壓器即將到來的多模式統(tǒng)一的時代是否即將到來?從今天開始,這個問題確實很棒,但是足以證明變形金剛確實值得。

預(yù)知

那么,所謂的擴散變壓器到底是什么?為了易于理解,有必要在引入它之前了解其一些先發(fā)制人的知識。顧名思義,可以簡單地將擴散變壓器分為:擴散變壓器=擴散 +變壓器。這對應(yīng)于我們將在下面介紹的主流擴散模型(潛在擴散模型)和變壓器模型。

潛在擴散模型

一些大wig上的其他大wig已經(jīng)給出了關(guān)于什么是擴散模型的詳細(xì)說明,您可以自己搜索它們。簡而言之,該模型通過“添加噪聲”來污染圖片的像素,從而了解“去除噪聲”的過程。生成圖片時,模型逐漸將完整的高斯噪聲降低,并逐步恢復(fù),直到模型輸出圖像中的每個像素不再是噪聲,這是我們期望的干凈圖像。

什么是潛在擴散模型?顧名思義,擴散模型消除噪聲的對象已從“像素”變?yōu)椤半[藏的空間特征”。隱藏的擴散模型分別包括兩個部分

結(jié)合了前兩個,我們獲得了隱藏的擴散模型,并使用穩(wěn)定的擴散模型體系結(jié)構(gòu)呈現(xiàn)最經(jīng)典:

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

stable怎么讀音發(fā)音_stable是什么意思?怎么讀_statue讀

穩(wěn)定擴散的模型體系結(jié)構(gòu)圖。紅色區(qū)域代表壓縮模型的過程,將圖片轉(zhuǎn)換為特征。綠色區(qū)域代表擴散模型的學(xué)習(xí)和生成過程。變壓器

Transformer首先用于機器翻譯任務(wù),即完成具有相同長度和長度的句子的翻譯過程,其處理的對象是“ word”(soken)。說到變壓器,我們與之相關(guān)的最簡單的事情是它的自我發(fā)揮機制,這也很清楚。今天,我們需要更多地關(guān)注變壓器模型本身的另一個功能 - 自動回歸(AR)。

statue讀_stable是什么意思?怎么讀_stable怎么讀音發(fā)音

變壓器機器翻譯流程圖

Transformer是一種經(jīng)典的自動回歸模型,就像LSTM一樣。那么什么是自動性?我認(rèn)為與與Chatgpt的互動結(jié)合使用很容易理解。當(dāng)我們在網(wǎng)絡(luò)上與Chatgpt交談時,我們會發(fā)現(xiàn)Chatgpt的答復(fù)實際上會一個一個一個彈出。換句話說,此過程可以稱為“下一個單詞預(yù)測”(在這里借用GPT預(yù)培訓(xùn)方法的陳述以促進理解,兩者本質(zhì)上是不同的)。

應(yīng)該注意的是,“單詞”可能是英語中的每個單詞,也可能是用來表示圖像的某種形式,這是一個更廣泛的定義。然后,對于圖像中的單詞,需要與上一篇文章中的壓縮模型結(jié)合使用。如前所述,壓縮模型的過程具有準(zhǔn)確的損失。特定的損失在于,在壓縮模型將連續(xù)圖像處理成特征之后,該圖像需要在特征空間中離散,即最初是小數(shù)的像素值將被處理為整數(shù)。這樣,確切的值將變得不準(zhǔn)確,從而導(dǎo)致準(zhǔn)確性喪失。當(dāng)計算機處理文本時,它實際上會看到一堆整數(shù)。為了促進人類的理解,我們?nèi)藶榈亟⒘艘粋€詞匯,以一種自然語言對應(yīng)。這個過程稱為令牌。同樣,對于離散圖像功能,我們還可以得到這樣的詞匯,稱為代碼簿,與代碼書相對應(yīng)的單詞將用作變壓器的輸入并進一步處理。

那么,如果要生成圖像stable是什么意思?怎么讀,變形金剛會怎么做?結(jié)合了以前的壓縮模型過程,讓我們以馴服變壓器為例。它首先需要預(yù)測一個單詞,然后將此單詞用作下一個預(yù)測的“信息”。變形金剛將進一步預(yù)測基于此單詞的下一個單詞,然后將上一個單詞(該單詞)發(fā)送給變壓器本身,依此類推。最后,直到模型預(yù)測的一定數(shù)量的單詞之前,這些單詞可以組合成圖片的相應(yīng)特征,然后從壓縮模型恢復(fù)到圖片(像素),我們可以用肉眼識別。

概括

盡管潛在擴散模型和變壓器為人工智能的發(fā)展增添了很大的標(biāo)記,但這些技術(shù)也具有固有的缺點。對于擴散模型,自2020年DDPM的誕生以來,連續(xù)三年的工作延續(xù)了原始的經(jīng)典U-NET架構(gòu),并且仍然依靠網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計中的早期研究經(jīng)驗,并有很大的改進空間;始終批評的變壓器是其“錯誤積累”。簡而言之,錯誤擴散來自變壓器“預(yù)測下一個單詞”的生成模型。如果之前生成的單詞是錯誤的,那么在生成后續(xù)單詞時,模型將“將是錯誤的”,這將導(dǎo)致錯誤的積累。擴散模型從一代范式中避免了這個問題,因為它同時消除了所有像素的噪聲(我們稱此范式為非自動化范圍)。如何同時解決這兩者的缺點已成為一個很好的研究主題。

現(xiàn)在我們既了解擴散模型又了解變壓器,一個自然的想法是:如果我們做“ A+B”怎么辦?如果此“ A+B”可以同時解決上述問題,那么它自然會更好。因此,我們將在下面談?wù)摂U散變壓器。

什么是擴散變壓器?

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

擴散變壓器來自文章“具有變壓器的可擴展擴散模型”。這項工作的作用是通過“ A+B”的想法將隱藏的擴散模型與變壓器結(jié)合在一起。我們研究了AI巨人通過研究動機,方法設(shè)計和個人思想所青睞擴散變壓器的原因。

研究動機

工作的動機實際上與上一篇文章中描述的擴散模型的缺點一致。基于早期工作經(jīng)驗,擴散模型仍然有很大改進網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的空間。受隱藏空間擴散模型范式的啟發(fā)stable是什么意思?怎么讀,這項工作成功地用變壓器取代了擴散模型中的經(jīng)典U-NET結(jié)構(gòu)。在進一步改善網(wǎng)絡(luò)體系結(jié)構(gòu)的復(fù)雜性的前提下,它可以顯著提高產(chǎn)生的圖像的質(zhì)量,并在Imagenet數(shù)據(jù)集的生成任務(wù)上獲得2.27 FID得分(FID分?jǐn)?shù)2.27是標(biāo)準(zhǔn)數(shù)據(jù)集Imagenet的驚人得分)。

方法設(shè)計

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

擴散變壓器的模型架構(gòu)圖

總體而言,擴散變壓器(DIT)具有一種特殊的機制,可以添加和denoise圖像,以及強大的變壓器自我發(fā)揮機制,以及上一篇文章中提到的變壓器“預(yù)測下一個單詞”的特征。給定輸入圖像,DIT首先通過擴散模型的標(biāo)準(zhǔn)噪聲添加過程污染壓縮特征,從而拼接了噪聲結(jié)合特征,條件特征和地面真實的相應(yīng)特征,并將它們輸入變壓器以輸出結(jié)果,完成了DIT講道。

stable是什么意思?怎么讀_statue讀_stable怎么讀音發(fā)音

DIT訓(xùn)練過程的示意圖

在訓(xùn)練過程中,DIT計算標(biāo)準(zhǔn)LSIMPLE = ∥?θ(XT)??T∥22至①和②的擴散損失。同時,DIT還限制了①和③之間的KL差異,以確保預(yù)測σ與地面真相分布一致。

statue讀_stable是什么意思?怎么讀_stable怎么讀音發(fā)音

對于每個DIT模塊的詳細(xì)信息,我們可以在其論文中介紹模型架構(gòu)圖(從右到左):

stable是什么意思?怎么讀_statue讀_stable怎么讀音發(fā)音

修補過程圖

statue讀_stable是什么意思?怎么讀_stable怎么讀音發(fā)音

為什么Spade模塊擴散變壓器的模型結(jié)構(gòu)圖?

擴散變壓器的研究動機實際上很簡單。它結(jié)合了隱藏擴散模型實現(xiàn)的相對良好的性能效果與變壓器強大的模型體系結(jié)構(gòu)相結(jié)合,希望將擴散模型提高到更高的水平。正如Openai和穩(wěn)定性都選擇了擴散變壓器一樣,這使我考慮了它。實際上,該模型還有其他可用選項,例如Mamba。那么,什么可以使擴散變壓器成為AI巨人的獨特選擇?

stable怎么讀音發(fā)音_statue讀_stable是什么意思?怎么讀

穩(wěn)定擴散3生成包含文本的圖片

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

Sora壓縮視頻的流程圖

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

stable是什么意思?怎么讀_statue讀_stable怎么讀音發(fā)音

由Sora生成的2K圖像,擴散變壓器擬合的應(yīng)用

Fit [7]是DIT的隨后延續(xù),來自“ Fit:擴散模型的靈活視覺變壓器”。

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

擬合與DIT之間的區(qū)別

已解決,但沒有完全解決。盡管DIT解決了U -NET問題,但從SORA和穩(wěn)定擴散3的成功應(yīng)用來看,擴散變壓器的設(shè)計無疑取得了巨大的成功,但與此同時,DIT架構(gòu)也帶來了由于變壓器的存在,即變壓器的分辨率固定問題,也帶來了新的問題。擬合的誕生是使DIT體系結(jié)構(gòu)能夠應(yīng)用于任何決議。具體而言,F(xiàn)IT用繩索(繩索,旋轉(zhuǎn)位置嵌入)替換了DIT的原始位置代碼,并將自我注意力的機制變成了掩蓋的自我注意機制。有趣的是,這項工作的靈感來自一些大型語言模型的工作,并用Swiglu代替了Feed前層中的MLP。無論是在訓(xùn)練還是測試過程中,F(xiàn)IT都會將輸入擴展到最大長度,并且在生成圖像時,僅采用與分辨率相關(guān)的單詞數(shù)量,以通過任何分辨率通過擴散變壓器實現(xiàn)圖像生成。

statue讀_stable怎么讀音發(fā)音_stable是什么意思?怎么讀

適合模型架構(gòu)圖Unidiffuser

Unidiffuser [8]是另一個將擴散模型與變壓器結(jié)合的工作,從“一個變壓器擬合了大規(guī)模的多模式擴散中的所有分布”。

寫完這篇文章后,我在文章開始時就在不知不覺中回應(yīng)了我對變形金剛的多模式統(tǒng)一性的想象。當(dāng)我第一次閱讀Zhu Jun老師團隊的Unidiffusers時,我非常了不起。不僅是因為變壓器“真正”統(tǒng)一了模態(tài),而且還通過擴散模型統(tǒng)一了,回憶也很有趣。

stable怎么讀音發(fā)音_stable是什么意思?怎么讀_statue讀

Unidiffuser的效果顯示

stable是什么意思?怎么讀_statue讀_stable怎么讀音發(fā)音

從上圖中,我們可以看到Unidiffuser不僅可以意識到文本和圖片貝語網(wǎng)校,還可以完成多個任務(wù),例如同時生成文本和圖片,圖像描述,無條件的圖像/文本生成,圖片/文本/文本變化,圖片/文本編輯,圖片插值等,這在很大程度上從一代人的角度實現(xiàn)了多模型的統(tǒng)一性。

statue讀_stable是什么意思?怎么讀_stable怎么讀音發(fā)音

擴散器與其他定制擴散器之間差異的示意圖

具體來說,Unidiffuser可以同時以兩種不同的模式,圖片和文本處理數(shù)據(jù),總體解決方案只需要稍作更改。在訓(xùn)練過程中,對于整個Unidiffuser的輸出,我們可以根據(jù)經(jīng)典的擴散損失對其進行重寫,然后GET:EX0,Y0,?X,?Y,TX,TY = ∥?θ(XTX,YTY,YTY,YTY,TX,TY) - [?X,?Y]∥22;在測試過程中,無分類器指導(dǎo)也適用于Unidiffuser架構(gòu)。就統(tǒng)一模式而言,Unidiffuser有幾個有趣的設(shè)計:

stable怎么讀音發(fā)音_statue讀_stable是什么意思?怎么讀

Unidiffuser的模型架構(gòu)圖摘要

Sora和穩(wěn)定擴散3的到來,無論是在科學(xué)研究中還是應(yīng)用程序?qū)嵤┲校荚?024年為AIGC社區(qū)帶來了新的活力。擴散的變壓器作為后起之秀,使每個人都期待它。我想知道今年的擴散變壓器是否會再次顛覆AIGC范式,例如2022年的穩(wěn)定擴散。當(dāng)我撰寫本文時,我在編寫它時變得越來越好奇。

參考

1.^Video?Generation?Models?as?World?Simulators?https://openai.com/research/video-generation-models-as-world-simulators
2.^Stable?Diffusion?3?https://stability.ai/news/stable-diffusion-3
3.^Scalable?Diffusion?Models?with?Transformers?https://arxiv.org/abs/2212.09748
4.^High-Resolution?Image?Synthesis?with?Latent?Diffusion?Models?https://arxiv.org/abs/2112.10752
5.^Taming?Transformer?for?High-Resolution?Image?Synthesis?https://arxiv.org/abs/2012.09841
6.^Semantic?Image?Synthesis?with?Spatially-Adaptive?Normalization?https://arxiv.org/abs/1903.07291
7.^FiT:?Flexible?Vision?Transformer?for?Diffusion?Model?https://arxiv.org/abs/2402.12376
8.^One?Transformer?Fits?All?Distributions?in?Multi-Modal?Diffusion?at?Scale?https://arxiv.org/abs/2303.06555
9.^All?are?Worth?Words:?A?ViT?Backbone?for?Diffusion?Models?https://arxiv.org/abs/2209.12152

為您推薦

世界報與國家報競爭西語讀者占有率,但盈利轉(zhuǎn)化仍是艱巨任務(wù)

本學(xué)期,我們學(xué)校在課程中引入了一個引人入勝的新內(nèi)容——英國文學(xué)閱讀課,其目的是培養(yǎng)學(xué)生的批判性思維能力,并讓學(xué)生一窺英國文學(xué)的魅力。【V1】通過互動討論、小組活動和學(xué)生展示,所有學(xué)生必將獲得對英語文學(xué)更深入和最新的理解。

2025-04-12 17:29

sign怎么讀?包含發(fā)音、用法和趣味故事等

首先,咱們先說說這個單詞的發(fā)音。英語中“sign”發(fā)音為/sain/,聽起來像是“賽恩”。總而言之,“sign”這個詞雖然看似簡單,但它的發(fā)音、用法和文化背景都非常豐富。無論是在學(xué)習(xí)英語的過程中,還是在實際交流中,掌握“sign”的發(fā)音和用法,都會讓我們的表達更加流暢和自信。

2025-04-11 21:15

澳式英語的三種口音類型:粗獷型、大眾型和文雅型解析

很多中國人都抱怨說,澳式英語不好聽,或很難聽得懂。等單詞,夸張的澳大利亞人讀起來就好像是ply、mite、die、sigh。另外,在日常用語中,同樣的英文單詞在澳式英語中表達的可能是不同的意思,下面,我們舉例來說明:說了這么多,大家有沒有記住一些常用的澳式英語表達呢?

2025-04-11 16:20

tera什么意思_tera怎么讀_tera翻譯_用法_詞組_同反義詞

tera的基本釋義為 基本解釋 兆兆,垓等等。貝語網(wǎng)校(www.www.soylu-gmbh.com)為您提供tera發(fā)音,英語單詞tera的音標(biāo),tera中文意思,tera的過去式,tera雙語例句等相關(guān)英語知識。

2025-04-11 10:24

telephone什么意思_telephone怎么讀_telephone翻譯_用法_詞組_同反義詞

telephone的基本釋義為 基本解釋 n. 電話;電話機;(電話機的)話筒;受話器vt.& vi. 以電話傳送(消息),給(某人)打電話;用電話與(某人)交談等等。貝語網(wǎng)校(www.www.soylu-gmbh.com)為您提供telephone發(fā)音,英語單詞telephone的音標(biāo),telephone中文意思,telephone的過去式,telephone雙語例句等相關(guān)英語知識。

2025-04-11 10:24

teamviewer什么意思_teamviewer怎么讀_teamviewer翻譯_用法_詞組_同反義詞

teamviewer的基本釋義為 基本解釋 n 團隊查看器等等。貝語網(wǎng)校(www.www.soylu-gmbh.com)為您提供teamviewer發(fā)音,英語單詞teamviewer的音標(biāo),teamviewer中文意思,teamviewer的過去式,teamviewer雙語例句等相關(guān)英語知識。

2025-04-11 10:24

加載中...