做h5頁面的網(wǎng)站網(wǎng)絡(luò)推廣外包公司
GPT4 VS ChatGPT(from nytimes )
正如文章官網(wǎng)博文:https://openai.com/research/gpt-4所述,GPT4仍有很多不足之處,還不及人類水平。紐約時(shí)報(bào)報(bào)道了一些人體驗(yàn)GPT4的效果和一些評價(jià):
Cade Metz 要求專家使用 GPT-4,Keith Collins 將人工智能生成的答案可視化。
四個(gè)月前吸引科技行業(yè)的 AI 聊天機(jī)器人所采用的技術(shù)的新版本在其前身的基礎(chǔ)上進(jìn)行了改進(jìn)。它是一系列學(xué)科的專家,其醫(yī)療建議甚至令醫(yī)生驚嘆不已。它可以描述圖像,并且接近于講幾乎好笑的笑話。但傳聞已久的新人工智能系統(tǒng) GPT-4 仍然存在一些怪癖,并且會(huì)犯一些同樣的習(xí)慣性錯(cuò)誤,這些錯(cuò)誤在引入聊天機(jī)器人 ChatGPT 時(shí)讓研究人員感到困惑。雖然它是一個(gè)非常好的應(yīng)試者,但這個(gè)系統(tǒng)——來自舊金山初創(chuàng)公司 OpenAI——還沒有達(dá)到與人類智能相匹配的水平。下面是GPT-4的簡要指南:
已經(jīng)學(xué)會(huì)了更精確的方法
人工智能專家兼風(fēng)險(xiǎn)投資公司Page One Ventures的合伙人 Chris Nicholson在最近的一個(gè)下午使用 GPT-4 時(shí),他告訴機(jī)器人他是一個(gè)說英語但不懂西班牙語的機(jī)器人。他要求提供一份可以教他基礎(chǔ)知識的教學(xué)大綱,而機(jī)器人提供了一個(gè)詳細(xì)且組織良好的教學(xué)大綱。它甚至提供了廣泛的學(xué)習(xí)和記憶西班牙語單詞的技巧(盡管并非所有建議都中肯)。
Nicholson 先生向以前版本的 ChatGPT 尋求類似的幫助,該版本依賴于 GPT-3.5。它也提供了教學(xué)大綱,但它的建議更籠統(tǒng)且?guī)椭淮蟆?/p>
“它已經(jīng)突破了精確的障礙,”尼科爾森先生說?!八烁嗟氖聦?shí),而且它們往往是正確的。”
提高了準(zhǔn)確性
當(dāng) AI 研究員兼教授 Oren Etzioni 首次嘗試這款新機(jī)器人時(shí),他問了一個(gè)直截了當(dāng)?shù)膯栴}:“Oren Etzioni 和 Eli Etzioni 之間有什么關(guān)系?” 機(jī)器人正確響應(yīng)。
之前版本的 ChatGPT 對那個(gè)問題的回答總是錯(cuò)誤的。做對了表明新的聊天機(jī)器人擁有更廣泛的知識。但它仍然會(huì)出錯(cuò)。機(jī)器人繼續(xù)說道:“Oren Etzioni 是一名計(jì)算機(jī)科學(xué)家,也是艾倫人工智能研究所 (AI2) 的首席執(zhí)行官,而 Eli Etzioni 是一名企業(yè)家。” 其中大部分是準(zhǔn)確的,但這個(gè)機(jī)器人——其培訓(xùn)已于 8 月完成——并沒有意識到 Etzioni 博士最近辭去了艾倫研究所的首席執(zhí)行官一職。
可以用令人印象深刻的細(xì)節(jié)描述圖像。
GPT-4 具有響應(yīng)圖像和文本的新功能。OpenAI 總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 演示了該系統(tǒng)如何細(xì)致地描述來自哈勃太空望遠(yuǎn)鏡的圖像。描述繼續(xù)段落。它還可以回答有關(guān)圖像的問題。如果給出冰箱內(nèi)部的照片,它可以建議用手頭的東西做幾頓飯。
OpenAI 尚未向公眾發(fā)布這部分技術(shù),但一家名為 Be My Eyes 的公司已經(jīng)在使用 GPT-4 構(gòu)建服務(wù),可以更詳細(xì)地了解在互聯(lián)網(wǎng)上遇到的圖像或在現(xiàn)實(shí)世界中拍攝的圖像.
增加了嚴(yán)肅的專業(yè)知識
最近的一個(gè)晚上,北卡羅來納大學(xué)教堂山分校的醫(yī)學(xué)副教授兼心臟病專家 Anil Gehi 向聊天機(jī)器人描述了他一天前看過的一位患者的病史,包括患者術(shù)后出現(xiàn)的并發(fā)癥被送往醫(yī)院。描述中包含幾個(gè)外行人無法識別的醫(yī)學(xué)術(shù)語。當(dāng) Gehi 醫(yī)生問他應(yīng)該如何治療病人時(shí),聊天機(jī)器人給了他完美的答案?!斑@正是我們對待病人的方式,”他說。當(dāng)他嘗試其他場景時(shí),機(jī)器人給出了同樣令人印象深刻的答案。這些知識不太可能在每次使用機(jī)器人時(shí)都顯示出來。它仍然需要像蓋希博士這樣的專家來判斷它的反應(yīng)并執(zhí)行醫(yī)療程序。但它可以在許多領(lǐng)域展示這種專業(yè)知識,從計(jì)算機(jī)編程到會(huì)計(jì)。
可以讓編輯們?yōu)樽约旱腻X而奔波
當(dāng)提供來自《紐約時(shí)報(bào)》的文章時(shí),新的聊天機(jī)器人幾乎每次都能對故事進(jìn)行精確和準(zhǔn)確的總結(jié)。如果您在摘要中添加一個(gè)隨機(jī)句子并詢問機(jī)器人摘要是否不準(zhǔn)確,它會(huì)指向添加的句子。
Etzioni 博士說這是一項(xiàng)了不起的技能。“要進(jìn)行高質(zhì)量的總結(jié)和比較,就必須對文本有一定程度的理解,并有能力表達(dá)這種理解,”他說。“那是一種高級形式的情報(bào)。”
正在培養(yǎng)一種幽默感
Etzioni 博士要求新機(jī)器人提供“關(guān)于歌手麥當(dāng)娜的新穎笑話”。這個(gè)回答讓他印象深刻。這也讓他笑了。如果您知道麥當(dāng)娜的熱門歌曲,它可能也會(huì)給您留下深刻印象。
除了公式化的“爸爸笑話”之外,新的機(jī)器人仍然很難寫出任何東西。但它比它的前身稍微有趣一點(diǎn)。
可以推理
Etzioni 博士給了新機(jī)器人一個(gè)謎題。
系統(tǒng)似乎做出了適當(dāng)?shù)幕貞?yīng)。但是答案沒有考慮門口的高度,這也可能會(huì)阻止坦克或汽車通過。OpenAI 的首席執(zhí)行官 Sam Altman 說,新的機(jī)器人可以推理“一點(diǎn)點(diǎn)”。但它的推理能力在許多情況下都會(huì)崩潰。以前版本的 ChatGPT 更好地處理了這個(gè)問題,因?yàn)樗J(rèn)識到高度和寬度很重要。
可以通過標(biāo)準(zhǔn)化測試
OpenAI 表示,新系統(tǒng)可以在 41 個(gè)州和地區(qū)的律師統(tǒng)一考試中獲得前 10% 左右的學(xué)生分?jǐn)?shù)。根據(jù)該公司的測試,它還可以在 SAT 考試中獲得 1,300 分(滿分 1,600 分),在生物、微積分、宏觀經(jīng)濟(jì)學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)和歷史等高級先修高中考試中獲得 5 分(滿分 5 分)。該技術(shù)的早期版本未能通過統(tǒng)一律師資格考試,并且在大多數(shù)大學(xué)先修考試中的得分也沒有那么高。在最近的一個(gè)下午,為了展示其測試技能,布羅克曼先生向新機(jī)器人提供了一段關(guān)于一位經(jīng)營柴油卡車維修業(yè)務(wù)的人的段落長的律師考試問題。答案是正確的,但充滿了法律術(shù)語。因此,布羅克曼先生要求機(jī)器人用通俗易懂的英語向外行解釋答案。它也這樣做了。
不擅長討論未來
盡管新機(jī)器人似乎可以對已經(jīng)發(fā)生的事情進(jìn)行推理,但當(dāng)被要求對未來做出假設(shè)時(shí),它就不那么熟練了。它似乎借鑒了其他人所說的話,而不是創(chuàng)造新的猜測。當(dāng) Etzioni 博士向新機(jī)器人提問時(shí),“未來十年 NLP 研究中需要解決的重要問題是什么?” - 指的是推動(dòng) ChatGPT 等系統(tǒng)發(fā)展的“自然語言處理”研究 - 它無法提出全新的想法。
它仍然在產(chǎn)生“幻覺”
新的機(jī)器人仍在編造東西。這個(gè)問題被稱為“幻覺”,困擾著所有領(lǐng)先的聊天機(jī)器人。由于系統(tǒng)不了解什么是真什么不是,它們可能會(huì)生成完全錯(cuò)誤的文本。當(dāng)被要求提供描述最新癌癥研究的網(wǎng)站地址時(shí),它有時(shí)會(huì)生成不存在的互聯(lián)網(wǎng)地址。