中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

想做一個(gè)網(wǎng)站平臺(tái)怎么做的廣告推廣系統(tǒng)

想做一個(gè)網(wǎng)站平臺(tái)怎么做的,廣告推廣系統(tǒng),怎樣加入裝修接單網(wǎng)站,外貿(mào)自建站有哪些最近這幾年,自然語言處理和計(jì)算機(jī)視覺這兩大領(lǐng)域真是突飛猛進(jìn),讓機(jī)器不僅能看懂文字,還能理解圖片。這兩個(gè)領(lǐng)域的結(jié)合,催生了視覺語言模型,也就是Vision language models (VLMs) ,它們能同時(shí)處理視覺信息和…

最近這幾年,自然語言處理和計(jì)算機(jī)視覺這兩大領(lǐng)域真是突飛猛進(jìn),讓機(jī)器不僅能看懂文字,還能理解圖片。這兩個(gè)領(lǐng)域的結(jié)合,催生了視覺語言模型,也就是Vision language models (VLMs) ,它們能同時(shí)處理視覺信息和文字?jǐn)?shù)據(jù)。

圖片

VLMs就像是AI界的新寵,能搞定那些既需要看圖又需要讀文的活兒,比如給圖片配文字、回答有關(guān)圖片的問題,或者根據(jù)文字描述生成圖片。以前這些活兒都得靠不同的系統(tǒng)來干,但現(xiàn)在VLMs提供了一個(gè)統(tǒng)一的解決方案。咱們得好好研究研究這些視覺語言模型。

那視覺語言模型到底是啥?

簡單來說,視覺語言模型就是把計(jì)算機(jī)視覺自然語言處理這兩大技術(shù)合二為一。

計(jì)算機(jī)視覺就是讓機(jī)器能看懂圖像和視頻里的東西,比如認(rèn)出里面有什么物體、圖案之類的。

自然語言處理呢,就是讓機(jī)器能理解和生成人類的語言,這樣機(jī)器就能讀得懂、分析得了,還能自己寫東西。

VLMs就是通過構(gòu)建一種能同時(shí)處理視覺和文本輸入的模型,把這兩個(gè)領(lǐng)域給連接起來了。這背后靠的是深度學(xué)習(xí)的一些高級(jí)架構(gòu),尤其是那些變換器(Transformer)模型,它們?cè)谙馟PT-4o、Llama、Gemini和Gemma這樣的大型語言模型中發(fā)揮了關(guān)鍵作用。

這些基于變換器的架構(gòu)被調(diào)整來處理多種類型的輸入,讓VLMs能捕捉到視覺信息和語言數(shù)據(jù)之間那些復(fù)雜的聯(lián)系。

VLMs到底是怎么個(gè)工作法?

你記得那個(gè)為了處理自然語言而搞出來的變換器模型嗎?就是那個(gè)能處理長距離的依賴關(guān)系,還能抓住數(shù)據(jù)里上下文聯(lián)系的厲害玩意兒。這個(gè)模型現(xiàn)在已經(jīng)成了很多高級(jí)AI系統(tǒng)的中堅(jiān)力量。

這個(gè)變換器架構(gòu),最早是在2017年的一篇論文《Attention is All You Need》( https://arxiv.org/abs/1706.03762 )里提出來的。

圖片

Transformer網(wǎng)絡(luò)架構(gòu)

在VLMs的世界里,變換器被調(diào)整成了能同時(shí)處理圖像和文本,讓這兩種不同類型的信息能夠無縫地整合在一起。想要更詳細(xì)了解?Transformer?的話,可以參見之前的文章:《Transformer架構(gòu)的詳解》及《用PyTorch構(gòu)建Transformer模型實(shí)戰(zhàn)》

一般來說,一個(gè)典型的VLM架構(gòu)包括兩個(gè)主要的部分:圖像編碼器文本解碼器

  • 圖像編碼器:這家伙的職責(zé)是處理視覺數(shù)據(jù),比如圖片,然后提取出里面的關(guān)鍵特征,比如物體、顏色、紋理等等,把它們轉(zhuǎn)換成模型能懂的格式。

  • 文本解碼器:這個(gè)部件負(fù)責(zé)處理文本數(shù)據(jù),根據(jù)圖像編碼器提供的視覺特征來生成輸出。

圖片

Encoder-Decoder 功能

這兩個(gè)部件在VLM里頭就像是多模態(tài)融合的大管家。

通過把這兩部分結(jié)合起來,VLMs能干的事兒可多了,比如能給圖片寫出詳細(xì)的描述,回答有關(guān)圖片的問題,甚至根據(jù)文字描述生成全新的圖片呢!VLMs工作的過程大概是這樣的:

  1. 圖像分析:圖像編碼器先檢查圖片,然后生成一個(gè)代碼,這個(gè)代碼代表了圖片的關(guān)鍵視覺特征。

  2. 信息結(jié)合:文本解碼器拿到這個(gè)代碼后,會(huì)把它和任何文本輸入(比如一個(gè)問題)結(jié)合起來,一起處理。

  3. 生成輸出:文本解碼器用這種結(jié)合后的理解來生成一個(gè)回應(yīng),比如給圖片配上字幕,或者回答問題。

大多數(shù)VLMs用的是視覺變換器(Vision Transformer, ViT)作為圖像編碼器,這個(gè)編碼器已經(jīng)在大量的圖像數(shù)據(jù)集上預(yù)訓(xùn)練過,確保它能有效地捕捉到多模態(tài)任務(wù)需要的視覺特征。

文本解碼器則是基于語言模型,經(jīng)過微調(diào)后能處理視覺數(shù)據(jù)上下文中的語言生成的復(fù)雜性。這種視覺和語言處理能力的高度結(jié)合,讓VLMs成為了一種非常通用而且強(qiáng)大的模型。

開發(fā)VLMs的一個(gè)重大挑戰(zhàn)就是要有大型而且多樣化的數(shù)據(jù)集,里面得包含視覺和文本信息。這些數(shù)據(jù)集對(duì)于訓(xùn)練模型理解和生成多模態(tài)內(nèi)容非常關(guān)鍵。

訓(xùn)練VLMs的過程,就是把圖像和它們相應(yīng)的文本描述成對(duì)地輸入到模型里,讓模型學(xué)會(huì)視覺元素和語言表達(dá)之間的復(fù)雜關(guān)系。

為了處理這些數(shù)據(jù),VLMs通常會(huì)用到嵌入層,把視覺和文本輸入都轉(zhuǎn)換成高維空間里的表示,這樣它們就可以在那里被比較和結(jié)合起來。

這種嵌入過程讓模型能夠理解兩種模態(tài)之間的聯(lián)系,并且生成既連貫又符合上下文的輸出。想要了解更多關(guān)于嵌入的細(xì)節(jié),可以參見?《大話LLM之向量嵌入》?及?《LLM向量嵌入知多少》兩篇文章。

那現(xiàn)在有哪些比較主流的開源的視覺語言模型?

這個(gè)領(lǐng)域可真是海了去了,Hugging Face Hub上就有不少現(xiàn)成的開源模型。這些模型大小不一,功能各異,許可證也各不相同,給不同需求的用戶提供了豐富的選擇。下面咱們就來看看一些特別出色的開源VLMs,以及它們的關(guān)鍵特點(diǎn):

圖片

最新的VLMs及其關(guān)鍵特點(diǎn)

要找到最適合自己特定需求的VLMs,面對(duì)這么多選項(xiàng)確實(shí)有點(diǎn)難。不過,有幾個(gè)工具和資源能幫上忙:

  1. Vision Arena:這是一個(gè)動(dòng)態(tài)排行榜,基于模型輸出的匿名投票。用戶上傳一張圖片和一個(gè)提示,然后系統(tǒng)會(huì)從兩個(gè)不同的模型中隨機(jī)抽取輸出,讓用戶選擇他們更喜歡哪個(gè)。這個(gè)排行榜完全是基于人的喜好來構(gòu)建的,給模型提供了一個(gè)公平的排名。

  2. Open VLM Leaderboard:這個(gè)排行榜會(huì)根據(jù)不同的指標(biāo)和平均分?jǐn)?shù)給各種VLMs打分,還提供了篩選器,可以按照模型的大小、許可證和不同指標(biāo)的性能來排序。

  3. VLMEvalKit:這是一個(gè)工具包,專門設(shè)計(jì)用來在VLMs上運(yùn)行基準(zhǔn)測試,也是Open VLM Leaderboard的技術(shù)支持。還有一個(gè)評(píng)估套件叫LMMS-Eval,它提供了一個(gè)命令行界面,讓用戶可以使用Hugging Face Hub上托管的數(shù)據(jù)集來評(píng)估模型。

雖然Vision Arena和Open VLM Leaderboard提供了很多有價(jià)值的信息,但它們只能包括那些已經(jīng)被提交的模型,而且需要定期更新,才能加入新模型。

我們?cè)趺丛u(píng)估這些視覺語言模型?

通常得用到幾種專門的基準(zhǔn)測試,下面簡要介紹幾種,詳情可參見:《大型語言模型基準(zhǔn)測試:理解語言模型性能》:

  1. MMMU:這個(gè)大規(guī)模多學(xué)科多模態(tài)理解和推理的基準(zhǔn)測試,覆蓋了超過11,500個(gè)多模態(tài)的挑戰(zhàn),需要用到像藝術(shù)和工程這樣的不同學(xué)科的大學(xué)水平知識(shí)。

  2. MMBench:這個(gè)基準(zhǔn)測試包含了20種不同技能的3000個(gè)單選題,比如光學(xué)字符識(shí)別(OCR)和目標(biāo)定位。它用CircularEval策略,就是把答案選項(xiàng)隨機(jī)打亂,模型得一直能選出正確答案。

  3. 特定領(lǐng)域的基準(zhǔn)測試:還有一些更專業(yè)的基準(zhǔn)測試,比如MathVista(視覺數(shù)學(xué)推理)、AI2D(圖表理解)、ScienceQA(科學(xué)問題回答)和OCRBench(文檔理解),這些都能提供更專門的評(píng)估。

這些測試幫研究人員和開發(fā)者評(píng)估和比較不同VLMs的性能,讓他們能更好地理解模型在特定任務(wù)和場景下的效果。通過這些測試,我們能更精確地知道模型處理多模態(tài)數(shù)據(jù)、理解復(fù)雜概念和生成準(zhǔn)確響應(yīng)的能力。

技術(shù)細(xì)節(jié):預(yù)訓(xùn)練VLMs

預(yù)訓(xùn)練VLMs就是要把圖像和文本的信息統(tǒng)一起來,然后輸入到文本解碼器里生成文本。這通常包括一個(gè)圖像編碼器、一個(gè)用來對(duì)齊圖像和文本信息的嵌入投影器,還有一個(gè)文本解碼器。不過,不同的模型可能會(huì)用不同的預(yù)訓(xùn)練策略。

很多時(shí)候,如果你能針對(duì)特定用途微調(diào)現(xiàn)有的模型,可能連預(yù)訓(xùn)練VLMs都不需要。像Transformers和SFTTrainer這樣的工具,讓微調(diào)模型變得簡單,即使是資源有限的人也能輕松上手。

實(shí)現(xiàn)開源VLMs

下面是一個(gè)用HuggingFace的Transformers庫,我們可以在自己的電腦上免費(fèi)使用開源VLM LlavaNext模型:

from?transformers?import?LlavaNextProcessor,?LlavaNextForConditionalGeneration
import?torch
device?=?torch.device('cuda'?if?torch.cuda.is_available()?else?'cpu')
processor?=?LlavaNextProcessor.from_pretrained("llava-hf/llava-v1.6-mistral-7b-hf"
)
model?=?LlavaNextForConditionalGeneration.from_pretrained("llava-hf/llava-v1.6-mistral-7b-hf",torch_dtype=torch.float16,low_cpu_mem_usage=True
)
model.to(device)

這樣,我們就能在自己的項(xiàng)目中用上這些強(qiáng)大的開源VLMs了。

VLMs 有哪些應(yīng)用場景??

VLMs 本事可不止是給圖片加個(gè)字幕那么簡單。這些模型就像是視覺和文本信息之間的超級(jí)翻譯官,開啟了一大堆應(yīng)用的大門。咱們一塊兒看看VLMs在各行各業(yè)里頭都有哪些影響力大的應(yīng)用。

  1. 視覺問題回答(Visual Question Answering, VQA)

    想象一下,你給機(jī)器看張圖,然后問它問題,比如“這圖里最高的樓是什么顏色的?”或者“這圖里有幾個(gè)人?”VQA就是干這個(gè)的。這要求模型得能讀懂圖里的視覺信息,還得理解你問話的上下文。在醫(yī)療行業(yè),VQA能幫忙分析醫(yī)學(xué)影像,給診斷和治療計(jì)劃提供參考。在零售業(yè),它能讓顧客更直觀地和商品圖片互動(dòng),提升購物體驗(yàn)。

  2. 文本到圖像生成

    VLMs還有一個(gè)超酷的能力,就是能根據(jù)文字描述生成圖片。比如你描述一個(gè)“山間寧靜的日落,山谷中流淌著一條河流”,VLMs就能給你“畫”出來。這對(duì)設(shè)計(jì)師和廣告人來說是個(gè)寶,他們可以根據(jù)文字提示快速搞出視覺創(chuàng)意,讓創(chuàng)造視覺內(nèi)容的過程更高效。

  3. 圖像檢索

    圖像檢索就是根據(jù)文字描述來找圖片。VLMs能搞懂圖片里有啥,也能搞懂你想找啥,幫你找到最匹配的圖片。這能讓搜索引擎更精準(zhǔn),讓用戶更容易找到他們想要的圖片。無論是在網(wǎng)上購物還是醫(yī)學(xué)圖像分析,這個(gè)技能都很有用。

  4. 視頻理解

    VLMs不只能處理圖片,還能處理視頻,幫我們理解視頻內(nèi)容,甚至給視頻加字幕。視頻理解能分析視頻里的視覺信息,然后生成描述性的文本,捕捉視頻要表達(dá)的精髓。這個(gè)技能在視頻搜索、視頻摘要和內(nèi)容審核等方面都能派上用場。比如,它能幫助用戶根據(jù)文字找到特定的視頻片段,或者快速生成視頻摘要,讓用戶迅速了解視頻內(nèi)容。在內(nèi)容審核方面,VLMs能幫忙識(shí)別視頻中的不當(dāng)內(nèi)容,讓網(wǎng)絡(luò)平臺(tái)更安全友好。

總之,視覺語言模型能同時(shí)處理視覺和文本數(shù)據(jù),這本事讓各種應(yīng)用都有可能得到加強(qiáng)。隨著這個(gè)領(lǐng)域的不斷發(fā)展,我們可以預(yù)見,未來會(huì)有更多更復(fù)雜的VLMs出現(xiàn),它們能完成更艱巨的任務(wù),還能給出有價(jià)值的見解。

http://www.risenshineclean.com/news/46255.html

相關(guān)文章:

  • 廣州市專業(yè)做商城網(wǎng)站百度認(rèn)證官網(wǎng)
  • 濟(jì)邦建設(shè)有限公司官方網(wǎng)站如何制作微信小程序
  • 長沙網(wǎng)站建設(shè)哪家好seo哪里有培訓(xùn)
  • 社科聯(lián)網(wǎng)站建設(shè)情況匯報(bào)重慶seo網(wǎng)絡(luò)優(yōu)化師
  • 網(wǎng)站建設(shè)工作室北京小俊哥簡單網(wǎng)站建設(shè)優(yōu)化推廣
  • 鄭州 公司網(wǎng)站制作百度愛采購?fù)茝V怎么入駐
  • 北京市中關(guān)村有哪家可以做網(wǎng)站維護(hù)重慶seo排名技術(shù)
  • 河源做網(wǎng)站優(yōu)化百度推廣營銷頁
  • wordpress 附件自定義南京百度快速排名優(yōu)化
  • 網(wǎng)站的制作蘇州網(wǎng)站seo服務(wù)
  • 設(shè)計(jì)師網(wǎng)絡(luò)語南京seo
  • 深圳本地做網(wǎng)站優(yōu)化師培訓(xùn)機(jī)構(gòu)
  • 手工包網(wǎng)站建設(shè)策劃書seo排名查詢
  • 十堰的網(wǎng)站建設(shè)杭州seook優(yōu)屏網(wǎng)絡(luò)
  • wordpress https 網(wǎng)站分享企業(yè)網(wǎng)站建設(shè)方案范文
  • 制作一個(gè)網(wǎng)站需要多少錢百度托管公司
  • 手機(jī)網(wǎng)站在哪里找到外貿(mào)推廣平臺(tái)排名
  • wordpress 前端展示seopeixun
  • 做網(wǎng)站的計(jì)劃書有哪些免費(fèi)推廣軟件
  • 微信群如何推廣網(wǎng)站建設(shè)站長之家seo綜合查詢
  • 上海建筑工程網(wǎng)seo視頻教程百度云
  • 深圳網(wǎng)站托管公司谷歌seo新規(guī)則
  • 松江泗涇網(wǎng)站建設(shè)查看關(guān)鍵詞被搜索排名的軟件
  • 如何建立網(wǎng)站的步驟加強(qiáng)服務(wù)保障滿足群眾急需ruu7
  • app開發(fā)技術(shù)東莞快速優(yōu)化排名
  • 100款免費(fèi)軟件網(wǎng)站大全亞馬遜的免費(fèi)網(wǎng)站
  • 青海旅游的網(wǎng)站建設(shè)搜索引擎下載
  • 深圳昊客網(wǎng)絡(luò)推廣寧波seo優(yōu)化公司排名
  • xxx網(wǎng)站建設(shè)規(guī)劃域名注冊(cè)信息查詢whois
  • 阿里媽媽 網(wǎng)站建設(shè)不完整長沙網(wǎng)絡(luò)優(yōu)化產(chǎn)品