當(dāng)前位置：首頁 > news >正文

四川成都網(wǎng)站制作廣州網(wǎng)站優(yōu)化費(fèi)用

news 2025/7/12 13:24:49

四川成都網(wǎng)站制作,廣州網(wǎng)站優(yōu)化費(fèi)用,wordpress增加網(wǎng)址大全,網(wǎng)站內(nèi)容排版內(nèi)容來源：xiaohuggg GPT-4V-Act ：一個(gè)多模態(tài)AI助手，能夠像人類一樣模擬通過鼠標(biāo)和鍵盤進(jìn)行網(wǎng)頁瀏覽。它可以模擬人類瀏覽網(wǎng)頁時(shí)的行為，如點(diǎn)擊鏈接、填寫表單、滾動頁面等。它通過視覺理解技術(shù)識別網(wǎng)頁上的元素，就像…

內(nèi)容來源：@xiaohuggg

GPT-4V-Act ：一個(gè)多模態(tài)AI助手，能夠像人類一樣模擬通過鼠標(biāo)和鍵盤進(jìn)行網(wǎng)頁瀏覽。

它可以模擬人類瀏覽網(wǎng)頁時(shí)的行為，如點(diǎn)擊鏈接、填寫表單、滾動頁面等。

它通過視覺理解技術(shù)識別網(wǎng)頁上的元素，就像人眼一樣，能夠“看到”按鈕、文本框、圖片等，并理解它們的功能和用途。

這個(gè)工具的目的是讓AI能夠自動完成一些需要人工操作的任務(wù)，從而提高工作效率，幫助人們更容易地使用各種網(wǎng)頁界面。

工作原理：

GPT-4V-Act利用GPT-4V語言理解能力和視覺處理能力以及一套特定的自動標(biāo)記工具(Set-of-Mark)的視覺定位能力，該工具為每個(gè)可交互的UI元素分配一個(gè)唯一的數(shù)字ID。

通過結(jié)合任務(wù)和截圖作為輸入，GPT-4V-Act可以推斷出完成任務(wù)所需的后續(xù)動作。它能夠檢查UI截圖并提供精確的像素坐標(biāo)，以指導(dǎo)鼠標(biāo)/鍵盤執(zhí)行特定任務(wù)。

目前，這個(gè)演示還很基礎(chǔ)，它利用網(wǎng)頁抓取技術(shù)將ChatGPT Plus變形為一個(gè)非官方的GPT-4V API后端。盡管目前的測試有限，但該代理已經(jīng)顯示出了在Reddit上發(fā)布帖子、搜索產(chǎn)品和啟動結(jié)賬過程的能力。

主要特點(diǎn)：

1、視覺處理：能夠處理視覺信息，但支持程度有限。

2、自動標(biāo)記：使用JS DOM自動標(biāo)記器為UI元素分配數(shù)字ID，支持COCO數(shù)據(jù)格式的導(dǎo)出。

3、鼠標(biāo)和鍵盤操作：能夠執(zhí)行點(diǎn)擊和輸入字符操作。

4、特殊鍵碼輸入：目前還不支持輸入特殊鍵碼（如回車、頁面上移、頁面下移）。

5、其他功能：滾動、提示用戶提供更多信息、記住與任務(wù)相關(guān)的信息等功能也尚未支持。

GitHub：httpshttps://github.com/ddupont808/GPT-4V-Act

視覺定位：https://https://som-gpt4v.github.io/
原帖：httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?rdt=50049ent_gpt4vact/

查看全文

http://www.risenshineclean.com/news/21955.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

四川成都網(wǎng)站制作廣州網(wǎng)站優(yōu)化費(fèi)用

相關(guān)文章：