網(wǎng)站bbs備案龍崗網(wǎng)站設(shè)計
體驗Claude3,官網(wǎng)地址:claude.ai
省流
2024/3/4 日,Anthropic公司發(fā)布了新一代的Claude 3模型家族,這些模型在多種認(rèn)知任務(wù)上設(shè)定了新的行業(yè)標(biāo)準(zhǔn)。以下是Claude 3模型家族的主要特點和亮點:
- 模型家族構(gòu)成:包括三個模型,按能力遞增排序為Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。用戶可以根據(jù)特定應(yīng)用選擇智能、速度和成本的最佳平衡。 Opus 和 Sonnet 現(xiàn)在可以在 claude.ai 和 Claude API 中使用,后者現(xiàn)已在 159 個國家/地區(qū)正式發(fā)布。Haiku即將推出。
- 性能提升:Opus模型在多個AI系統(tǒng)評估基準(zhǔn)上超越同行,包括本科水平的專家知識(MMLU)、研究生水平的專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等,展現(xiàn)出接近人類的理解和流利度。
- 即時響應(yīng)能力:Claude 3模型能夠支持實時客戶聊天、自動補全和數(shù)據(jù)提取任務(wù),其中Haiku模型在讀取信息密集型的研究論文時速度最快,成本效益最高。
- 視覺能力:Claude 3模型具有先進的視覺處理能力,能夠處理照片、圖表、圖形和技術(shù)圖表等多種視覺格式。
- 減少拒絕回答:與前代模型相比,Opus、Sonnet和Haiku在處理接近系統(tǒng)邊界的提示時,拒絕回答的可能性顯著降低。
- 提高準(zhǔn)確性:Claude 3模型在處理復(fù)雜、事實性問題時的準(zhǔn)確性有所提高,Opus模型在挑戰(zhàn)性開放式問題上的準(zhǔn)確率是Claude 2.1的兩倍。
- 長文本處理和記憶:Claude 3模型初始提供200K的上下文窗口,但能夠處理超過100萬個標(biāo)記的輸入,并可能為需要增強處理能力的客戶開放這一功能。
- 負(fù)責(zé)任的設(shè)計:Claude 3模型家族在設(shè)計上注重可信賴性,包括跟蹤和減輕各種風(fēng)險,如錯誤信息、CSAM、生物濫用、選舉干預(yù)和自主復(fù)制技能。
- 減少偏見:Claude 3模型在減少偏見方面取得了進步,根據(jù)問題回答偏見基準(zhǔn)(BBQ)顯示,其偏見比前代模型少。
- 易用性:Claude 3模型更擅長遵循復(fù)雜、多步驟的指令,能夠更好地適應(yīng)品牌聲音和響應(yīng)指南,以及開發(fā)用戶可信賴的客戶體驗。
- 模型可用性:Opus和Sonnet現(xiàn)已在API中可用,Haiku模型即將推出。Sonnet在claude.ai上提供免費體驗,Opus則為Claude Pro訂閱者提供。
- 未來計劃:Anthropic計劃在未來幾個月內(nèi)頻繁更新Claude 3模型家族,并推出一系列新功能,以增強模型的能力,特別是針對企業(yè)用例和大規(guī)模部署。
- 安全承諾:Anthropic致力于確保模型的安全性與性能提升保持同步,以引導(dǎo)AI發(fā)展朝著積極的社會結(jié)果前進。
這些新模型的發(fā)布標(biāo)志著AI技術(shù)在智能、速度和成本效益方面的進步,同時也強調(diào)了在發(fā)展過程中對安全性和負(fù)責(zé)任設(shè)計的承諾。
發(fā)布細節(jié)
智能新標(biāo)準(zhǔn)
我們的最智能模型Opus在大多數(shù)常見的AI系統(tǒng)評估基準(zhǔn)上都超過同行,包括本科水平的專家知識(MMLU)、研究生水平的專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。它在復(fù)雜任務(wù)上展現(xiàn)出接近人類的理解和流暢度,引領(lǐng)著通用智能的前沿。
所有Claude 3模型在分析和預(yù)測、細致入微的內(nèi)容創(chuàng)建、代碼生成以及使用西班牙語、日語和法語等非英語語言進行交談方面都顯示出增強的能力。
以下是Claude 3模型與我們同行在多個性能基準(zhǔn)上的比較:
近乎即時的結(jié)果
Claude 3模型可以實現(xiàn)實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù),這些任務(wù)的響應(yīng)必須是即時和實時的。
Haiku是市場上最快、最具成本效益的智能類別模型。它可以在不到三秒的時間內(nèi)閱讀arXiv上的信息和數(shù)據(jù)密集型研究論文,其中包括圖表和圖形。發(fā)布后,我們希望進一步提高性能。
對于絕大多數(shù)工作負(fù)載,Sonnet的速度是Claude 2和Claude 2.1的2倍,智能水平更高。它擅長需要快速響應(yīng)的任務(wù),如知識檢索或銷售自動化。Opus的速度與Claude 2和2.1相似,但智能水平要高得多。
強大的視覺能力
Claude 3模型具有與其他領(lǐng)先模型相媲美的復(fù)雜視覺功能。它們可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。我們特別高興能為我們的企業(yè)客戶提供這種新模式,其中一些客戶擁有多達50%的知識庫以各種格式編碼,例如PDF、流程圖或演示幻燈片。
減少拒絕
以前的Claude模型經(jīng)常做出不必要的拒絕,這表明缺乏對上下文的理解。我們在這一領(lǐng)域取得了有意義的進展:與前幾代模型相比,Opus、Sonnet和Haiku拒絕回答系統(tǒng)護欄提示的可能性要小得多。如下圖所示,Claude 3模型對請求表現(xiàn)出更細致的理解,識別真正的傷害,并且拒絕回答無害提示的頻率要低得多。
提高準(zhǔn)確性
各種規(guī)模的企業(yè)都依賴我們的模型來為他們的客戶提供服務(wù),因此我們的模型輸出必須保持大規(guī)模的高精度。為了評估這一點,我們使用了大量復(fù)雜的事實問題,這些問題針對當(dāng)前模型中的已知弱點。我們將回答分為正確答案、錯誤答案(或幻覺)和承認(rèn)不確定性,其中模型說它不知道答案,而不是提供不正確的信息。與Claude 2.1相比,Opus在這些具有挑戰(zhàn)性的開放式問題的準(zhǔn)確性(或正確答案)上提高了兩倍,同時也減少了錯誤答案的水平。
除了產(chǎn)生更可信的回答外,我們還將很快在我們的Claude 3模型中啟用引用,以便他們可以指向參考資料中的精確句子來驗證他們的答案。
長上下文和近乎完美的回憶
Claude 3系列模型最初將在發(fā)布時提供200K上下文窗口。然而,所有三種模型都能夠接受超過1百萬個代幣的輸入,我們可能會將其提供給需要增強處理能力的特定客戶。
為了有效地處理長上下文提示,模型需要強大的召回功能?!按蠛漆槨?#xff08;NIAH)評估衡量模型從大量數(shù)據(jù)語料庫中準(zhǔn)確調(diào)用信息的能力。我們通過對每個提示使用30個隨機針/問題對之一,并在不同的眾包文檔語料庫上進行測試,增強了該基準(zhǔn)的穩(wěn)健性。Claude 3 Opus不僅實現(xiàn)了近乎完美的回憶,準(zhǔn)確率超過99%,而且在某些情況下,它甚至通過識別“針”句似乎是人類人為地插入原始文本來識別評估本身的局限性。
負(fù)責(zé)任的設(shè)計
我們開發(fā)了Claude 3系列型號,使其既值得信賴又強大。我們有幾個專門的團隊來跟蹤和緩解廣泛的風(fēng)險,從錯誤信息和CSAM到生物濫用、選舉干擾和自主復(fù)制技能。我們繼續(xù)開發(fā)諸如憲法人工智能之類的方法,以提高我們模型的安全性和透明度,并調(diào)整了我們的模型,以減輕新模式可能引發(fā)的隱私問題。
處理越來越復(fù)雜的模型中的偏見是一項持續(xù)的工作,我們在這次新版本中取得了進步。如模型卡片所示,根據(jù)問答偏見基準(zhǔn)(BBQ),Claude 3的偏見比我們以前的模型少。我們始終致力于推進減少偏見和提高模型中性的技術(shù),確保它們不會偏向任何特定的黨派立場。
盡管Claude 3模型系列在生物學(xué)知識、與網(wǎng)絡(luò)相關(guān)的知識和自主性等關(guān)鍵度量上比以前的模型有所進步,但根據(jù)我們的負(fù)責(zé)任擴展政策,它仍然處于AI安全級別2(ASL-2)。我們的紅隊評估(按照我們對白宮的承諾和2023年美國行政命令進行)已經(jīng)得出結(jié)論,目前這些模型對災(zāi)難性風(fēng)險的潛在可能性可以忽略不計。我們將繼續(xù)仔細監(jiān)測未來的模型,以評估它們距離ASL-3閾值的接近程度。更多安全細節(jié)可在Claude 3模型卡片中查看。
更易于使用
Claude 3模型更擅長遵循復(fù)雜的多步指示。它們特別擅長堅持品牌語音和回應(yīng)指南,并開發(fā)我們的用戶可以信賴的面向客戶的體驗。此外,Claude 3模型更擅長以像JSON這樣的流行結(jié)構(gòu)化輸出格式產(chǎn)生輸出,使得指導(dǎo)Claude用于自然語言分類和情感分析等用例更簡單。
模型詳情
Claude 3 Opus是我們最智能的模型,具有最高的市場表現(xiàn)在高度復(fù)雜的任務(wù)上。它可以在開放式提示和未見過的場景中以驚人的流暢度和類人的理解導(dǎo)航。Opus向我們展示了生成型人工智能的可能性的外限。
Cost 成本* [輸入$/百萬代幣 |輸出 $/million 代幣]* | $15 | $75 |
---|---|
上下文窗口 | 200K |
潛在用途 | 任務(wù)自動化:跨 API 和數(shù)據(jù)庫規(guī)劃和執(zhí)行復(fù)雜操作,交互式編碼研發(fā):研究回顧、頭腦風(fēng)暴和假設(shè)生成、藥物發(fā)現(xiàn)策略:對圖表和圖形、財務(wù)和市場趨勢的高級分析、預(yù)測 |
介紹 | 比任何其他可用型號都具有更高的智能性。 |
*1M tokens available for specific use cases, please inquire.
Claude 3 Sonnet在智能和速度之間取得了理想的平衡,尤其適用于企業(yè)工作負(fù)載。與同行相比,它以更低的成本提供了強大的性能,并專為大規(guī)模AI部署的高耐力而設(shè)計。
Cost 成本* [輸入$/百萬代幣 |輸出 $/million 代幣]* | $3 | $15 |
---|---|
上下文窗口 | 200K |
潛在用途 | 數(shù)據(jù)處理:RAG或搜索和檢索大量知識銷售:產(chǎn)品推薦、預(yù)測、有針對性的營銷節(jié)省時間的任務(wù):代碼生成、質(zhì)量控制、從圖像中解析文本 |
介紹 | 比其他具有類似智能的型號更實惠;更適合規(guī)模。 |
Claude 3 Haiku是我們最快、最緊湊的模型,可提供近乎即時的響應(yīng)。它以無與倫比的速度回答簡單的查詢和請求。用戶將能夠構(gòu)建無縫的AI體驗,模仿人類的互動。
*Cost 成本 *** [輸入$/百萬代幣 |輸出 $/million 代幣] | $0.25 | $1.25 |
---|---|
Context window 上下文窗口 | 200K |
潛在用途 | 客戶互動:在現(xiàn)場互動、翻譯方面提供快速準(zhǔn)確的支持內(nèi)容審核:捕獲有風(fēng)險的行為或客戶請求節(jié)省成本的任務(wù):優(yōu)化物流、庫存管理、從非結(jié)構(gòu)化數(shù)據(jù)中提取知識 |
介紹 | 比其智能類別中的其他型號更智能、更快、更實惠。 |
模型可用性
Opus和Sonnet現(xiàn)在可以在我們的API中使用,現(xiàn)已普遍可用,使開發(fā)者可以立即注冊并開始使用這些模型。Haiku即將推出。Sonnet正在為claude.ai的免費體驗提供支持,Opus可供Claude Pro訂閱者使用。
Sonnet也可以通過Amazon Bedrock今天就使用,并在Google Cloud的Vertex AI Model Garden中進行私人預(yù)覽,Opus和Haiku將很快在兩者中推出。
更聰明、更快、更安全
我們不認(rèn)為模型智能已經(jīng)接近極限,我們計劃在接下來的幾個月里頻繁更新Claude 3模型系列。我們也很高興推出一系列功能,以增強我們模型的能力,特別是對于企業(yè)用例和大規(guī)模部署。這些新功能將包括工具使用(也稱為函數(shù)調(diào)用)、交互式編碼(也稱為REPL)以及更高級的代理能力。
在推動AI能力的邊界的同時,我們同樣致力于確保我們的安全護欄能夠跟上這些性能的飛躍。我們的假設(shè)是,處于AI開發(fā)前沿是將其軌跡引向積極社會結(jié)果的最有效方式。要開始使用Claude,請訪問anthropic.com/claude。