兼積做調(diào)查掙錢網(wǎng)站免費(fèi)優(yōu)化網(wǎng)站排名
MINIGPT-4:ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS
提出的MiniGPT-4使用一個(gè)投影層,將凍結(jié)的視覺編碼器與凍結(jié)的先進(jìn)的LLM Vicuna對(duì)齊。我們的工作首次揭示,將視覺特征與先進(jìn)的大型語(yǔ)言模型正確對(duì)齊可以具有GPT-4所展示的許多先進(jìn)的多模態(tài)能力,例如從手繪草稿生成詳細(xì)的圖像描述和創(chuàng)建網(wǎng)站。在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn),在短圖像字幕對(duì)上訓(xùn)練的模型會(huì)產(chǎn)生不自然的語(yǔ)言輸出(例如重復(fù)和片段化)。為了解決這個(gè)問題,我們?cè)诘诙A段使用了一個(gè)詳細(xì)的圖像描述數(shù)據(jù)集來微調(diào)模型,從而提高了模型的生成可靠性和整體可用性。
MiniGPT-4添加了一個(gè) single projection layer,將編碼的視覺特征與Vicuna語(yǔ)言模型對(duì)齊,并凍結(jié)所有其他視覺和語(yǔ)言組件。MiniGPT-4最初在4個(gè)A100 GPU上使用256的批量大小訓(xùn)練20k步,利用組合圖像字幕數(shù)據(jù)集,其中包括來自LAION、概念字幕和SBU的圖像,將視覺特征與Vicuna語(yǔ)言模型對(duì)齊。然而,僅僅將視覺特征與語(yǔ)言模型(LLM)對(duì)齊不足以確保強(qiáng)大的視覺對(duì)話能力,就像聊天機(jī)器人一樣。原始圖像文本對(duì)中潛在噪聲的存在可能會(huì)導(dǎo)致語(yǔ)言輸出低于標(biāo)準(zhǔn)。因此,我們收集了另外3500個(gè)詳細(xì)的圖像描述對(duì),用設(shè)計(jì)的對(duì)話模板進(jìn)一步微調(diào)模型,以提高生成語(yǔ)言的自然度和可用性。