wordpress調用列表頁seo查詢官方網站
AIGC實戰(zhàn)——多模態(tài)模型Flamingo
- 0. 前言
- 1. Flamingo 架構
- 2. 視覺編碼器
- 3. Perceiver 重采樣器
- 4. 語言模型
- 5. FIamingo 應用
- 小結
- 系列鏈接
0. 前言
我們已經學習了文本生成圖像模型 DALL.E 2,在本節(jié)中,我們將探索另一種多模態(tài)模型 Flamingo
,它可以根據給定文本和視覺數據流生成文本。Flamingo
是 DeepMind
在 2022
年提出的一類視覺語言模型 (Visual Language Model
, VLM
),它是預訓練的純視覺模型和純語言模型之間的橋梁。在本節(jié)中,我們將介紹 Flamingo
模型的架構,并將其與所學習的文本生成圖像模型進行比較。
1. Flamingo 架構
Flamingo
的整體架構如下圖所示。接下來,我們將對該模型的核心組件,視覺編碼器、Perceiver
重采樣器和語言模式進行介紹,以了解 Flamingo
的核心思想。