四川成都網(wǎng)站制作廣州網(wǎng)站優(yōu)化費(fèi)用
內(nèi)容來源:@xiaohuggg
GPT-4V-Act :一個(gè)多模態(tài)AI助手,能夠像人類一樣模擬通過鼠標(biāo)和鍵盤進(jìn)行網(wǎng)頁瀏覽。
它可以模擬人類瀏覽網(wǎng)頁時(shí)的行為,如點(diǎn)擊鏈接、填寫表單、滾動頁面等。
它通過視覺理解技術(shù)識別網(wǎng)頁上的元素,就像人眼一樣,能夠“看到”按鈕、文本框、圖片等,并理解它們的功能和用途。
這個(gè)工具的目的是讓AI能夠自動完成一些需要人工操作的任務(wù),從而提高工作效率,幫助人們更容易地使用各種網(wǎng)頁界面。
工作原理:
GPT-4V-Act利用GPT-4V語言理解能力和視覺處理能力以及一套特定的自動標(biāo)記工具(Set-of-Mark)的視覺定位能力,該工具為每個(gè)可交互的UI元素分配一個(gè)唯一的數(shù)字ID。
通過結(jié)合任務(wù)和截圖作為輸入,GPT-4V-Act可以推斷出完成任務(wù)所需的后續(xù)動作。它能夠檢查UI截圖并提供精確的像素坐標(biāo),以指導(dǎo)鼠標(biāo)/鍵盤執(zhí)行特定任務(wù)。
目前,這個(gè)演示還很基礎(chǔ),它利用網(wǎng)頁抓取技術(shù)將ChatGPT Plus變形為一個(gè)非官方的GPT-4V API后端。盡管目前的測試有限,但該代理已經(jīng)顯示出了在Reddit上發(fā)布帖子、搜索產(chǎn)品和啟動結(jié)賬過程的能力。
主要特點(diǎn):
1、視覺處理:能夠處理視覺信息,但支持程度有限。
2、自動標(biāo)記:使用JS DOM自動標(biāo)記器為UI元素分配數(shù)字ID,支持COCO數(shù)據(jù)格式的導(dǎo)出。
3、鼠標(biāo)和鍵盤操作:能夠執(zhí)行點(diǎn)擊和輸入字符操作。
4、特殊鍵碼輸入:目前還不支持輸入特殊鍵碼(如回車、頁面上移、頁面下移)。
5、其他功能:滾動、提示用戶提供更多信息、記住與任務(wù)相關(guān)的信息等功能也尚未支持。
GitHub:httpshttps://github.com/ddupont808/GPT-4V-Act
視覺定位:https://https://som-gpt4v.github.io/
原帖:httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?rdt=50049ent_gpt4vact/