中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

什么網(wǎng)站做蔬菜生鮮比較好手機優(yōu)化大師下載2022

什么網(wǎng)站做蔬菜生鮮比較好,手機優(yōu)化大師下載2022,寧波市網(wǎng)站建設(shè),WordPress知更鳥lts2024人工智能指數(shù)報告(一):研發(fā) 前言 全面分析人工智能的發(fā)展現(xiàn)狀。 從2017年開始,斯坦福大學人工智能研究所(HAI)每年都會發(fā)布一份人工智能的研究報告,人工智能指數(shù)報告(AII&…

2024人工智能指數(shù)報告(一):研發(fā)

前言

全面分析人工智能的發(fā)展現(xiàn)狀。

從2017年開始,斯坦福大學人工智能研究所(HAI)每年都會發(fā)布一份人工智能的研究報告,人工智能指數(shù)報告(AII),對上一年人工智能相關(guān)的數(shù)據(jù)進行跟蹤、整理、提煉并進行可視化。這份指數(shù)報告被認為是關(guān)于全球人工智能發(fā)展狀況最可信、最權(quán)威的來源之一。正值人工智能對社會的影響達到前所未有的時刻,前不久他們剛剛發(fā)布了第七份報告。今年的報告擴大了研究范圍,以便更好地概括技術(shù)進步、公眾看法等情況。整份報告分為八章,分別總結(jié)了人工智能的研發(fā)、技術(shù)性能、負責任的人工智能、經(jīng)濟、科學與醫(yī)學、教育、政策與治理、多樣性、輿論等方面的情況。我們選取部分編譯出來,分四部分刊出,此為第一部分。

一、報告摘要

1. 人工智能在某些任務(wù)(但不是全部)的表現(xiàn)上超過了人類。

人工智能在多項基準測試的表現(xiàn)超越了人類,其中包括圖像分類、視覺推理和英語理解的部分測試項目。不過,對于更復(fù)雜的任務(wù),比如數(shù)學競賽、視覺常識推理還有規(guī)劃等任務(wù),人工智能仍落后人類。

2. 人工智能研究前沿仍由產(chǎn)業(yè)界主導(dǎo)。

2023 年,產(chǎn)業(yè)界發(fā)布了 51 個知名機器學習模型,而學術(shù)界僅貢獻了 15 個。此外,2023年產(chǎn)學研合作開發(fā)出 21 個知名模型,數(shù)量創(chuàng)下新高。

3. 先進模型研發(fā)成本大幅上升。

根據(jù)人工智能指數(shù)報告的估計,最先進人工智能模型的訓練成本已達到前所未有的水平。比方說,訓練OpenAI 的 GPT-4 使用的算力成本估計為 7800 萬美元,而訓練谷歌的 Gemini Ultra 的算力成本為 1.91 億美元。

4. 美國是頂尖人工智能模型的主要來源地,領(lǐng)先于中國、歐盟+英國。

2023 年,源自美國機構(gòu)的知名人工智能模型數(shù)量為 61 個,遠超歐盟的 21 個以及中國的 15 個。

5. 對大語言模型 (LLM) 責任性評估嚴重缺乏健全性與標準化。

人工智能指數(shù)報告的最新研究發(fā)現(xiàn)了一個問題:負責任的人工智能報告在標準化方面嚴重不足。OpenAI、谷歌以及 Anthropic 等行業(yè)領(lǐng)先公司在測試自家模型時往往采用不同的人工智能責任性標準,導(dǎo)致很難系統(tǒng)性地對頂級人工智能模型的風險與局限進行比較。

6. 對生成式人工智能的投資暴增。

盡管去年對人工智能的私募投資是下降的,但對生成式人工智能的投資卻大幅上升,比2022 年增長了近八倍,達到了 252 億美元。OpenAI、Anthropic、Hugging Face 以及 Inflection 等生成式人工智能的重要玩家均宣布獲得了大額融資。

7. 數(shù)據(jù)證明:人工智能提高了員工的生產(chǎn)效率,提升了工作質(zhì)量。

2023 年的多項研究顯示,人工智能可幫助員工加快完成任務(wù),且工作成果質(zhì)量也有所提升。這些研究還指出,人工智能可幫助縮小不同技能水平員工之間的差距。但同時也有研究提醒,如果沒有進行適當監(jiān)管,使用人工智能也可能會影響工作表現(xiàn)。

8. 人工智能加速了科學進步。

從2022 年開始,人工智能已經(jīng)促進了科學發(fā)現(xiàn),而到了 2023 年,更多科學相關(guān)的人工智能應(yīng)用相繼出現(xiàn),比方說 AlphaDev 令算法排序變得更加高效,而 GNoME 則在材料發(fā)現(xiàn)方面發(fā)揮了自身作用。

9. 美國對人工智能的監(jiān)管舉措大幅增加。

從過去一年乃至過去五年的尺度看,美國人工智能相關(guān)的監(jiān)管舉措顯著增加。2023 年,相關(guān)規(guī)定增至 25 項,相比之下, 2016 年只有一項。光是去年監(jiān)管規(guī)定數(shù)量就增長了 56.3%。

10. 全球?qū)θ斯ぶ悄艿臐撃芨恿私饬?#xff0c;但同時也更加不安了。

根據(jù) Ipsos 的一項調(diào)查,過去一年,相信人工智能將在未來三至五年內(nèi)極大影響自己生活的人數(shù)比例從 60% 提升到 66%。但同時,有 52% 的人對人工智能產(chǎn)品與服務(wù)感到不安,比 2022 年增加了 13%。根據(jù)皮尤的數(shù)據(jù),有52% 的美國人表示,相比之下自己對人工智能的態(tài)度是擔憂多于興奮,高于 2022 年的 38%。

二、研發(fā)

本章摘要

人工智能研究前沿仍由產(chǎn)業(yè)界主導(dǎo)。

2023 年,產(chǎn)業(yè)界發(fā)布了 51 個關(guān)注度很高的機器學習模型,而學術(shù)界僅貢獻了 15 個。此外,2023年產(chǎn)學研合作開發(fā)出 21 個知名模型,數(shù)量創(chuàng)下新高。

更多的基礎(chǔ)模型與開源基礎(chǔ)模型。

2023 年共發(fā)布了 149 個基礎(chǔ)模型,是 2022 年的兩倍多。在這些新發(fā)布的模型當中,有 65.7% 都是開源的,相比之下,2022 年只有 44.4%,2021 年為 33.3%。

先進模型研發(fā)成本大幅上升。

根據(jù)人工智能指數(shù)報告的估計,最先進人工智能模型的訓練成本已達到前所未有的水平。比方說,訓練OpenAI 的 GPT-4 使用的算力成本估計為 7800 萬美元,而訓練谷歌的 Gemini Ultra 的算力成本為 1.91 億美元。
美國是頂尖人工智能模型的主要來源地,領(lǐng)先于中國、歐盟和英國。 2023 年,源自美國機構(gòu)的知名人工智能模型數(shù)量為 61 個,遠超歐盟的 21 個以及中國的 15 個。

人工智能專利數(shù)量暴增。

2021 年至 2022 年間,全球獲授權(quán)的人工智能專利數(shù)量大幅增加了 62.7%。自 2010 年以來,獲授權(quán)的人工智能專利數(shù)量已增長了 31 倍多。

中國在人工智能專利方面占據(jù)主導(dǎo)地位。

2022 年中國在全球人工智能專利的占比達 61.1% ,位居首位,遠超美國的 20.9%。2010 年美國在 人工智能專利的占比仍為有54.1% 之多,此后便逐年下降。

開源人工智能研究爆發(fā)。

Github上面人工智能相關(guān)的項目數(shù)量持續(xù)上升,從2011 年的845 個漲到 2023 年的約 180 萬個。尤其是 2023 年,數(shù)量同比猛增了 59.3%。與此同時,Github上人工智能相關(guān)項目獲得的星星數(shù)梁也增至 1220 萬,比前一年增加了三倍多。

人工智能文獻發(fā)表數(shù)量繼續(xù)上漲。

2010 至 2022 年間,人工智能相關(guān)文獻的發(fā)表數(shù)量增加了近三倍,從約 88000 篇增至 240000 篇以上,但最近一年僅增長了 1.1%。

1.1 論文發(fā)表情況

概述
下圖展示的是 2010 至 2022 年間全球中英文人工智能論文的發(fā)表情況統(tǒng)計,分按隸屬類型和跨界合作進行分類。同時,本節(jié)還詳細介紹了人工智能期刊文章與會議論文的相關(guān)數(shù)據(jù)。

人工智能文獻總量
圖1.1.1展示的是全球人工智能文獻數(shù)量。 2010 年至 2022 年間,人工智能文獻總數(shù)幾乎增加了兩倍,從2010 年的約 88000 篇增加到 2022 年的超過 240000 篇。但去年同比增幅僅為 1.1% 。
```
按文獻類型
圖 1.1.2 展示的是全球不同類型人工智能文獻的發(fā)表情況。2022 年,期刊類文章約有 230000 篇,會議論文約為 42000 篇。從 2015 年起,期刊與會議論文的增長速度是相當?shù)?#xff0c;2022 年會議論文數(shù)是 2015 年的 2.6 倍,2022年期刊文章數(shù)為2015年的 2.4 倍圖1.1.2

按研究領(lǐng)域
圖 1.1.3 展示的是從 2010 年至今不同研究領(lǐng)域人工智能文獻發(fā)表數(shù)量情況。最近十年機器學習的發(fā)表數(shù)量增速最高,自 2015 年起增長了近七倍。計算機視覺(21309 篇)、模式識別(19841 篇)以及過程管理 (12052 篇)緊隨其后。
圖1.1.3
在這里插入圖片描述

按行業(yè)
本節(jié)展示的是按行業(yè)的文獻發(fā)表分布情況,分別統(tǒng)計了全球以及美國、中國、歐盟及英國的情況。2022 年學術(shù)界貢獻了 81.1% 的人工智能文獻,是過去十年全球各地人工智能研究的主力軍(圖 1.1.4 和 1.1.5)。在人工智能文獻發(fā)表上美國的產(chǎn)業(yè)界最為活躍,其次是歐盟、英國以及中國。(圖1.1.5)
在這里插入圖片描述

人工智能期刊發(fā)表情況
圖1.1.6展示的是2010至2022年間人工智能期刊發(fā)表數(shù)量情況。2010年至2015年間人工智能期刊發(fā)表數(shù)量增長情況不大,但2015年后增長了2.4被。2021至2022年間,人工智能期刊發(fā)表增長率為4.5%。
在這里插入圖片描述

人工智能會議論文發(fā)表情況
圖 1.1.7 展示的是從 2010 年至今人工智能會議論文發(fā)表數(shù)量情況。最近兩年論文數(shù)量出現(xiàn)暴漲:2020 年有 22727 篇,2021 年增至 31629 篇, 2022 年則高達 41174 篇。僅去年增長率就達到了 30.2%。自 2010 年起,發(fā)表的會議論文數(shù)量已經(jīng)增加了一倍以上。
在這里插入圖片描述

1.2 專利

概述

圖 1.2.1 展示的是 2010 年至 2022 年間全球人工智能專利授權(quán)數(shù)量的增長趨勢。過去十年,獲授權(quán)的專利數(shù)量有了顯著提升,最近幾年增長情況尤其顯著。比方說,2010 年至 2014 年間,獲授權(quán)的人工智能專利數(shù)增長了 56.1%。但 2021 年到 2022 年的短短一年內(nèi),人工智能專利數(shù)量就增長了 62.7%。
在這里插入圖片描述
按申請狀態(tài)與地區(qū)分類
這一小節(jié)按照申請狀態(tài)(是否獲得授權(quán))和所在地區(qū)對人工智能專利進行了分類。圖 1.2.2 展示了全球各地人工智能專利申請情況的對比。截至 2022 年,未獲授權(quán)的人工智能專利數(shù)量 (128952) 是獲授權(quán)專利 (62264) 的兩倍多。過去幾年人工智能專利的許可情況發(fā)生了明顯變化。 2015 年前,提交的人工智能專利大部分都能成功獲得授權(quán)。但此后,未獲授權(quán)變成主流,且未獲授權(quán)的比例在逐年增大。比方說,2015 年時,有 42.2% 的人工智能專利申請未獲授權(quán),而到了 2022 年,這一比例增至 67.4%。
在這里插入圖片描述
從全球主要的專利來源地—包括中國、歐洲聯(lián)盟與英國及美國(圖 1.2.3)來看,獲授權(quán)與未獲授權(quán)的人工智能專利之間的差距十分明顯。最近幾年,這些地區(qū)的人工智能專利申請總數(shù)及獲授權(quán)數(shù)都有所上升。
在這里插入圖片描述
圖 1.2.4 對獲授權(quán)的人工智能專利進行了地區(qū)分析。2022 年的數(shù)據(jù)顯示,全球大部分的獲授權(quán)人工智能專利(75.2%)來自亞太地區(qū),其次是北美,占比為 21.2%。2011 年以前,北美在全球人工智能專利注冊數(shù)量中一直領(lǐng)先。但此后亞太地區(qū)占比有了顯著增長。
在這里插入圖片描述
從地區(qū)分布情況看,獲授權(quán)的人工智能專利大部分出自中國 (61.1%) 和美國 (20.9%) (圖 1.2.5)。 2010 年的 54.1% 是美國的最高點,此后美國的獲授權(quán)專利占比就一直在下降。
在這里插入圖片描述
圖 1.2.6 及 圖 1.2.7展示的是人均人工智能專利數(shù)的領(lǐng)先國家。2022 年,韓國 以10.3件/10萬人的人均專利擁有數(shù)指標位居全球榜首,其次是盧森堡 (8.8) 與美國 (4.2) (見圖 1.2.6)。圖 1.2.7 反映出 2012 年至 2022 年間新加坡、韓國及中國在人均人工智能專利擁有量有了顯著提升。
在這里插入圖片描述
在這里插入圖片描述

1.3 人工智能前沿研究

本節(jié)深入探索人工智能研究的前沿。盡管每年都會推出大量新的人工智能模型,但只有一小部分能代表研究的最前沿。誠然,對前沿或先進的定義有其主觀性:一個模型在某項基準測試創(chuàng)下新高,或引入了某種創(chuàng)新架構(gòu),或展現(xiàn)出新的、令人矚目的能力,這些或許都可以是前沿研究的體現(xiàn)。

本人工智能指數(shù)跟蹤了兩類前沿人工模型的動態(tài):“知名模型”(notable models)與基礎(chǔ)模型。數(shù)據(jù)提供商 Epoch 對精選出來的“知名機器學習模型”(notable machine learning models)的定義是在人工智能/機器學習生態(tài)體系有特殊影響力的模型。相比之下,基礎(chǔ)模型則是指那些用龐大數(shù)據(jù)集訓練而來,可執(zhí)行多種任務(wù)的人工智能大模型,如 GPT-4, Claude 3以及 Gemini 等。雖然很多基礎(chǔ)模型也被視為知名模型,但反之并不亦然。

本節(jié)將從多個維度分析知名模型與基礎(chǔ)模型的趨勢,包括模型的來源機構(gòu)、所在國、參數(shù)數(shù)量以及算力使用情況等。分析最后用機器學習的訓練成本來做總結(jié)。

概述

Epoch AI ,一個專門研究預(yù)測先進人工智能進展的研究團隊。其建立了一個數(shù)據(jù)庫,里面收錄了從 1950 年代起發(fā)布的各種人工智能與機器學習模型,選取標準包括先進性、歷史意義或高引用次數(shù)等。分析這些模型可對機器學習領(lǐng)域(包括近年來以及過去幾十年的)演進概況有一個全面的了解。雖然部分模型可能未被納入,但該數(shù)據(jù)集仍能揭示相關(guān)的發(fā)展趨勢。

行業(yè)分析

2014 年以前,發(fā)布機器學習模型的主力軍在學術(shù)界。但此后,產(chǎn)業(yè)界開始占據(jù)主導(dǎo)。2023 年,有51個知名機器學習模型是由產(chǎn)業(yè)界制作的,相比之下,學術(shù)界只發(fā)布了 15 個 (圖 1.3.1)。值得注意的是,同年產(chǎn)學合作還做出21個模型,創(chuàng)下新高。創(chuàng)建尖端人工智能模型需要大量數(shù)據(jù)、算力及資金支持,而這些往往是學術(shù)界不具備的。我們?nèi)ツ甑膱蟾媸锥韧怀稣故具@種轉(zhuǎn)變趨勢,盡管今年產(chǎn)學間的差距有所減小,但這種趨勢依舊。
在這里插入圖片描述
按國家歸屬
為了揭示人工智能地緣政治格局的變化趨勢,AI Index 研究團隊分析了知名模型的來源國。圖 1.3.2 展示的是各國(模型研究者所屬機構(gòu)所在地)開發(fā)的知名機器學習模型數(shù)量情況。2023 年美國以產(chǎn)出 61 個知名機器學習模型領(lǐng)先,中國有 15 個,法國為 8 個。在產(chǎn)出知名模型的數(shù)量上,歐盟+英國自 2019 年以來首次超過了中國(圖 1.3.3)。美國產(chǎn)出的模型數(shù)量領(lǐng)先于英國、中國及加拿大等其他主要地區(qū)(圖 1.3.4),這種情況從2003 年就開始了。

在這里插入圖片描述
在這里插入圖片描述
參數(shù)趨勢
機器學習模型的參數(shù)是指在訓練過程中學到的數(shù)值,可用來確定模型對輸入數(shù)據(jù)的解讀及預(yù)測方式。一般來說,用更多數(shù)據(jù)訓練的模型的參數(shù)也更多。同理,參數(shù)更多的模型往往表現(xiàn)更佳。

圖 1.3.5 展示的是Epoch數(shù)據(jù)集的機器學習模型的參數(shù)統(tǒng)計,按模型源自什么行業(yè)分類。自2010年代以來,參數(shù)的數(shù)量有了顯著增長,這反映出 人工智能模型要處理的任務(wù)越來越復(fù)雜,數(shù)據(jù)可用性的提高,硬件的改善,以及大模型的效能得到了驗證。在行業(yè)板塊,高參數(shù)模型尤其突出,展現(xiàn)了像 OpenAI、Anthropic 以及谷歌等公司對訓練海量數(shù)據(jù)所需的計算成本的承受能力。
在這里插入圖片描述
算力趨勢
在人工智能領(lǐng)域,“算力” (compute) 是指訓練及運行機器學習模型需要的算力資源。模型復(fù)雜度與數(shù)據(jù)量是影響算力需求的兩大因素:復(fù)雜度越高數(shù)據(jù)量越大,需要的算力也就越大。如圖 1.3.6 所示,過去 20 年許多知名機器學習模型訓練過程所需算力有了顯著增長。近年來,這種需求甚至呈指數(shù)級的增加,最近五年尤其如此。模型需要更多算力不僅對環(huán)境產(chǎn)生了較大影響,在算力資源的獲取上,企業(yè)往往比學術(shù)界更有優(yōu)勢。
在這里插入圖片描述
圖 1.3.7 聚焦的是訓練知名機器學習所需的算力(自 2012 年以來)。比方說,用GPU 提升人工智能模型效率的做法是AlexNet 這項研究率先采用的,其訓練估計消耗了 470 petaFLOPs。2017年首個 Transformer 模型推出時,所需算力約為 7400 petaFLOPs 。最近發(fā)布的頂尖模型,谷歌的 Gemini Ultra所需算力已經(jīng)達到約 500 億 petaFLOPs。
在這里插入圖片描述

特別聚焦:模型會用光數(shù)據(jù)嗎?

如前所述,最近算法取得的進步,包括強大的大語言模型(LLM)取得的進步,很大一部分是通過用更多數(shù)據(jù)訓練模型取得的。Anthropic 聯(lián)合創(chuàng)始人兼 AI Index 指導(dǎo)委員會成員杰克·克拉克(Jack Clark) 最近指出,基礎(chǔ)模型的訓練基本上把互聯(lián)網(wǎng)上能找到的絕大部分數(shù)據(jù)都用上了。

人工智能模型對數(shù)據(jù)的依賴性日益增強,這不僅讓人擔心將來計算機科學家可能沒有足夠的數(shù)據(jù)來擴展和提升系統(tǒng)。Epoch 的研究顯示,這種擔憂不無道理。Epoch已經(jīng)給出了數(shù)據(jù)耗盡可能的時間表預(yù)測,包括基于歷史數(shù)據(jù)的預(yù)測以及基于算力的預(yù)測。

比方說,研究者預(yù)測,到 2024 年,高質(zhì)量的語言數(shù)據(jù)可能就會被用盡,二十年后,低質(zhì)量的語言數(shù)據(jù)也將耗盡,而圖像數(shù)據(jù)可能到 2030 年代末至 2040 年代中就會被完全用光(圖 1.3.8)。用 人工智能生成的合成數(shù)據(jù)理論上可以解決數(shù)據(jù)不足的問題。比方說,可以用一個大語言模型生成的文本來訓練另一個模型。用合成數(shù)據(jù)訓練人工智能系統(tǒng)尤其有吸引力,不僅是可以作為數(shù)據(jù)可能耗盡的解決方案,也是因為在自然產(chǎn)生的數(shù)據(jù)很稀少的情況下(比方說罕見病或代表性不足群體),生成式人工智能系統(tǒng)原則上可以生成這種數(shù)據(jù)盡管如此,直到最近,大家對使用合成數(shù)據(jù)訓練生成式人工智能的有效性和可行性還知之甚少。但是,最新研究指出,這種方法在實踐上有其局限性。

比方說,來自英國和加拿大的研究團隊發(fā)現(xiàn),主要靠合成數(shù)據(jù)訓練出來的模型會出現(xiàn)所謂的“模型坍塌” (model collapse) 現(xiàn)象,也就是這些模型會逐漸忘記真實原始數(shù)據(jù)的分布情況,開始生成范圍狹窄的輸出。圖 1.3.9 展示的是變分自編碼器 (VAE,一種常用的生成式人工智能架構(gòu))模型坍塌的過程。每一代的模型在接觸到更多的合成數(shù)據(jù)指后,能生成的輸出類型會越來越局限。如圖 1.3.10 所示,從統(tǒng)計角度看,隨著合成數(shù)據(jù)代數(shù)的增加,輸出分布曲線的尾部逐漸消失,而數(shù)據(jù)集中度開始趨近中位數(shù)。這說明依賴合成數(shù)據(jù)的模型,其輸出多樣性和分布廣度隨時間減少。

在這里插入圖片描述
在這里插入圖片描述
2023 年對使用合成數(shù)據(jù)的生成式圖像模型還進行過一項類似研究,研究發(fā)現(xiàn),如果僅靠循環(huán)調(diào)用合成數(shù)據(jù),獲缺乏真正的人類數(shù)據(jù)支持,則模型的輸出質(zhì)量會明顯下降。研究者稱之為“模型自噬癥” (Model Autophagy Disorder, MAD,與瘋牛病有異曲同工之妙)。

本研究探討了兩種類型的訓練方法:一種是完全合成 (fully synthetic) 法,也就是模型只用合成數(shù)據(jù)進行訓練;另一種是合成增強 (synthetic augmentation) 法,也就是結(jié)合合成數(shù)據(jù)與真實數(shù)據(jù)對模型進行訓練。這兩種方法都會出現(xiàn)隨著訓練次數(shù)的增加,生成圖像的質(zhì)量逐漸下降的情況。圖 1.3.11 展示的是用合成增強法圖像生成出現(xiàn)逐步退化的情況,比方說在訓練的第 7 和第 9 步里,生成的人臉圖像出現(xiàn)了越來越多的不規(guī)則散點。從統(tǒng)計角度看,這些使用合成數(shù)據(jù)和合成增強方法生成的圖像,其 FID 分數(shù)較高,意味著與真實圖像的差異增大;精確度和召回率分數(shù)較低,表明圖像的真實感和多樣性都有所下降 (見圖 1.3.12)。盡管添加了部分真實數(shù)據(jù)的合成增強法相較于完全合成法在圖像退化上有所改善,但兩者在進一步訓練后都出現(xiàn)了效果遞減的趨勢。
在這里插入圖片描述
在這里插入圖片描述

基礎(chǔ)模型

基礎(chǔ)模型是人工智能模型當中發(fā)展很快且很受歡迎的一個類別。這些用大數(shù)據(jù)集訓練的模型可適用于多種下游應(yīng)用。比方說 GPT-4, Claude 3, 以及 Llama 2 等基礎(chǔ)模型展現(xiàn)出的能力令人印象深刻,并正在逐步投入到實際應(yīng)用當中。2023年斯坦福大學推出一個新的社區(qū)資源, Ecosystem Graphs,其目的是監(jiān)測基礎(chǔ)模型生態(tài)體系的動態(tài),其中包括數(shù)據(jù)集、模型及其應(yīng)用。本節(jié)內(nèi)容利用率 Ecosystem Graphs 的數(shù)據(jù)來分析基礎(chǔ)模型的發(fā)展趨勢。

發(fā)布的模型情況

基礎(chǔ)模型的訪問有多種途徑。比方說,有像谷歌的 PaLM-E 這樣一般人訪問不了,只有其開發(fā)者能訪問的模型。也有像 OpenAI 的 GPT-4 這樣提供有限訪問的模型,可通過公共 API 提供部分訪問權(quán)限。而像 Meta 的 Llama 2這類開放模型,不僅公開模型權(quán)重,還允許用戶自由修改和使用這些模型。

圖 1.3.13 展示的是從 2019 年至今,不同訪問類型的基礎(chǔ)模型總量變化情況。近幾年基礎(chǔ)模型的數(shù)量急劇增加,自 2022 年來翻了一番,相對于 2019 年增加了近 38 倍。2023 年共發(fā)布了 149 個基礎(chǔ)模型,其中開放模型 98 個,有限訪問模型 23 個,不開放訪問模型 28 個。
在這里插入圖片描述
2023 年絕大部分的基礎(chǔ)模型(65.8%)都采用了開放訪問的策略,有18.8% 的模型不開放訪問,15.4% 提供了有限訪問(見圖 1.3.14)。從 2021 年開始,開放訪問的模型比例有了顯著提升。
在這里插入圖片描述
組織隸屬情況
圖 1.3.15 展示的是基礎(chǔ)模型來源所屬板塊的情況(自 2019 年起)。 2023 年的情況是 72.5% 的基礎(chǔ)模型都是由產(chǎn)業(yè)界開發(fā)的。相比之下,只有 18.8% 的基礎(chǔ)模型出自學術(shù)界。近年來,來自產(chǎn)業(yè)界的基礎(chǔ)模型數(shù)量呈上升趨勢。
在這里插入圖片描述
圖 1.3.16 聚焦了 2023 年推出的各類基礎(chǔ)模型的來源。谷歌以 18 個模型獨占鰲頭,發(fā)布11個模型的Meta 緊隨其后,微軟發(fā)布了 9 個模型。加州大學伯克利分校是 2023 年發(fā)布模型最多的學術(shù)機構(gòu),共發(fā)布了 3 個模型。

在這里插入圖片描述
自 2019 年以來,谷歌宮發(fā)布了40個基礎(chǔ)模型,發(fā)布數(shù)量位居第一。OpenAI 以 20 個模型位列第二。清華大學發(fā)布了 7 個基礎(chǔ)模型領(lǐng)先,在非西方機構(gòu)當中領(lǐng)先,斯坦福大學則發(fā)布了 5 個模型,位居美國學術(shù)機構(gòu)首位。
在這里插入圖片描述
國家分布情況
鑒于基礎(chǔ)模型在人工智能前沿研究的重要地位,從地緣政治視角了解這些模型的國家歸屬就顯得尤為關(guān)鍵。圖 1.3.18、 1.3.19以及 1.3.20 展示的是不同基礎(chǔ)模型的國家歸屬情況。與本章前面對知名模型的分析類似,一個模型如果有研究者與某個國家的總部機構(gòu)有關(guān)聯(lián),則認為該模型屬于該國。

2023 年大多數(shù)的基礎(chǔ)模型都起源于美國,數(shù)量達到了 109,其次是中國的 20 個,以及英國(圖 1.3.18)。這方面美國自2019 年起就一直領(lǐng)先,是大多數(shù)基礎(chǔ)模型的發(fā)源地(圖 1.3.19)。

在這里插入圖片描述
在這里插入圖片描述
圖 1.3.20 展示了自 2019 年以來各國發(fā)布的基礎(chǔ)模型累計數(shù)量。在此期間,美國以發(fā)布 182 個模型領(lǐng)先,中國和英國的發(fā)布量分別是 30 和 21 。
在這里插入圖片描述

訓練成本

在關(guān)于基礎(chǔ)模型的討論中當中,成本推測是突出話題之一。雖然人工智能公司很少透露其模型訓練的成本,但普遍認為達到了數(shù)百萬美元,并且還在上升。比方說,OpenAI CEO 山姆·阿爾特曼(Sam Altman)曾提到 GPT-4 的訓練成本超過了 1 億美元。這種訓練費成本的上漲實際上已經(jīng)將傳統(tǒng)的人工智能研究中心——大學拒之門外,導(dǎo)致后者很難開發(fā)自己的前沿基礎(chǔ)模型。為此,已有一些政策舉措試圖打破這種產(chǎn)學失衡的情況,通過設(shè)立國家級的人工智能研究資源,將數(shù)據(jù)和算力授予給非產(chǎn)業(yè)界的行為人更,讓其得以從事高級的人工智能研究。

了解人工智能模型訓練成本很重要,但關(guān)于這些成本的詳細信息仍然稀少。AI Index 是最早提供基礎(chǔ)模型訓練成本估算者之一。今年AI Index 與 人工智能研究機構(gòu)Epoch AI進行了合作,使得我們的人工智能訓練成本估算的健壯性得到了顯著增強和鞏固。為了估算前沿模型的成本,Epoch 團隊分析了訓練的持續(xù)時間,以及訓練硬件的類型、數(shù)量和利用率,還利用了來自模型相關(guān)的出版物、新聞發(fā)布或技術(shù)報告的信息。

圖 1.3.21 展示了按照所租用的云服務(wù)價格估算出來的人工智能模型訓練成本。AI Index 的測算證實了近年來模型訓練成本顯著增加的猜測。比方說,2017 年初代 Transformer 模型(是幾乎現(xiàn)代所有大語言模型架構(gòu)的鼻祖)的訓練成本約為 900 美元。2019年發(fā)布的(在SQuAD 、GLUE等眾多權(quán)威理解基準測試中取得了最好成績的)RoBERTa Large的訓練成本約為 16 萬美元。而到了 2023 年,OpenAI 的 GPT-4 與谷歌的 Gemini Ultra 的訓練成本估計分別約為 7800 萬美元和 1.91 億美元。
在這里插入圖片描述
圖 1.3.22 展示的是 AI Index 測算的各人工智能模型的訓練成本。如圖可見,隨著時間的推延,模型訓練成本急劇上升。
在這里插入圖片描述
如之前的人工智能指數(shù)報告所證實那樣,人工智能模型的訓練成本與其算力需求之間存在著直接的關(guān)聯(lián)關(guān)系。如圖1.3.23所示,需更多計算資源的模型,訓練成本也相對更高。
在這里插入圖片描述

1.4 人工智能會議

人工智能會議是研究者展示研究成果,與同行及協(xié)作者間建立聯(lián)系的關(guān)鍵平臺。在過去二十年的時間里,這些會議在規(guī)模、數(shù)量以及名聲等方面均有了長足發(fā)展。本節(jié)探究的是重大人工智能會議參會情況的趨勢。

參會情況
圖 1.4.1 展示的是自 2010 年以來多場選定的人工智能會議的參會情況。先是因為全面回歸面對面會議模式導(dǎo)致出席人數(shù)下降,但從 2022 到 2023 年間,參會人數(shù)開始反彈。

具體而言,最近一年的參會人數(shù)增長了 6.7%。從 2015 年開始,每年的參會人數(shù)平均增加了 50000 名,這既表明公眾對人工智能研究的日益關(guān)注,也反映出新興人工智能會議的增多。
在這里插入圖片描述
神經(jīng)信息處理系統(tǒng)會議(NeurIPS)依舊是人氣極高的人工智能會議之一,2023 年吸引了約 16380 名參會者(見圖 1.4.2 與 圖 1.4.3)。在眾多重要的人工智能會議當中,NeurIPS、ICML、ICCV 和 AAAI 的參會人數(shù)仍持續(xù)增長。但在過去一年當中,CVPR、ICRA、ICLR 以及 IROS 的參會人數(shù)則略有下降。
在這里插入圖片描述
在這里插入圖片描述

1.5 開源人工智能軟件

GitHub 是一個可讓個人及團隊對代碼庫進行托管、審查以及協(xié)作的web平臺。作為被軟件開發(fā)者廣泛使用的工具,GitHub 可促進代碼管理、項目協(xié)作及開源軟件支持。本節(jié)內(nèi)容基于 GitHub 的數(shù)據(jù),發(fā)現(xiàn)了一些學術(shù)出版物未涉及的開源人工智能軟件開發(fā)趨勢。

項目
GitHub 的項目通常含有源代碼、文檔、配置文件以及圖像等多種文件,這些文件共同構(gòu)成一個完整的軟件項目。圖 1.5.1 展示的是從 2011 年到 2023 年間 GitHub 人工智能項目數(shù)量的增長趨勢。2011 年只有 845 個人工智能項目,而到了 2023 年這個數(shù)字已經(jīng)達到了近 180 萬。僅去年人工智能項目數(shù)量就增長了 59.3%。
在這里插入圖片描述
圖 1.5.2 展示的是 2011 年以來 GitHub 上各國人工智能項目的分布情況。2023 年出自美國的人工智能項目占比為 22.9%,位居首位,印度以 19% 的占比緊隨其后,歐盟+英國占比為 17.9%。從 2016 年開始,美國人工智能項目的占比就在持續(xù)減少。
在這里插入圖片描述

星標情況

在 GitHub 上,用戶可以通過“星標”(star)功能來表達對某個開源項目的喜愛和支持,就像在社交網(wǎng)絡(luò)上給帖子點贊一樣。在人工智能編程社區(qū)當中,像 TensorFlow、 OpenCV、 Keras及 PyTorch 等知名開源庫尤其受歡迎,經(jīng)常能獲得大量星標。比方說,專門用來開發(fā)和部署機器學習模型的TensorFlow使用廣泛, OpenCV 則提供了多種計算機視覺工具,其中包括對象識別和特征分析等功能。

過去一年,GitHub 上人工智能項目的星標總數(shù)有了大幅增長,從 2022 年的400萬增至 2023 年的1220萬(參見圖 1.5.3)。這種顯著增長不僅體現(xiàn)出項目數(shù)量的增加,也標志著開源人工智能軟件開發(fā)的發(fā)展之快。
在這里插入圖片描述
2023 年美國獲得星標數(shù)量最多,為約1050萬(圖 1.5.4)。歐盟+英國、中國、印度等各大地區(qū)的星標數(shù)同比也增加了。
在這里插入圖片描述
本文翻譯來自于神譯局。

http://www.risenshineclean.com/news/53320.html

相關(guān)文章:

  • 網(wǎng)站建設(shè)用英語怎么說web網(wǎng)頁制作教程
  • 公司做網(wǎng)站有什么用搜索引擎優(yōu)化策略有哪些
  • 阿里虛擬主機怎么做兩個網(wǎng)站嗎營銷推廣投放平臺
  • 國內(nèi)免費可商用圖片素材網(wǎng)站鄭州seo管理
  • 公司網(wǎng)站設(shè)計很好的網(wǎng)絡(luò)營銷模式案例
  • 富陽做網(wǎng)站網(wǎng)店運營推廣方案
  • 中小型企業(yè)建設(shè)網(wǎng)站微信seo排名優(yōu)化軟件
  • 網(wǎng)站建設(shè)合作伙伴sem和seo是什么職業(yè)
  • 建站之星授權(quán)什么是論壇推廣
  • 正規(guī)專業(yè)的互聯(lián)網(wǎng)代做畢業(yè)設(shè)計網(wǎng)站博客seo優(yōu)化技術(shù)
  • 龍崗個性化網(wǎng)站建設(shè)價格低南寧網(wǎng)站運營優(yōu)化平臺
  • 公關(guān)做的好的網(wǎng)站平臺軟件定制開發(fā)
  • 河北特定網(wǎng)站建設(shè)推薦查詢網(wǎng)域名查詢
  • 黃埔區(qū)做網(wǎng)站工具站seo
  • 網(wǎng)站制作推薦廊坊關(guān)鍵詞排名優(yōu)化
  • 佛山高端網(wǎng)站建設(shè)google搜索引擎入口下載
  • 服務(wù)好質(zhì)量好的app開發(fā)seo網(wǎng)站優(yōu)化工具大全
  • 響站怎么建設(shè)網(wǎng)站營業(yè)推廣是什么
  • 國企500強完整名單上海單個關(guān)鍵詞優(yōu)化
  • 有沒有網(wǎng)站免費的網(wǎng)絡(luò)營銷策劃書格式
  • 海寧網(wǎng)站建設(shè)上海seo推廣整站
  • 有關(guān)大數(shù)據(jù)的網(wǎng)站及網(wǎng)址seminar
  • 進入福建省建設(shè)干部培訓中心網(wǎng)站大數(shù)據(jù)營銷的案例
  • 如何用源代碼做網(wǎng)站手機優(yōu)化什么意思
  • 微信網(wǎng)頁宣傳網(wǎng)站怎么做的百度搜索關(guān)鍵詞技巧
  • 自己做網(wǎng)站制作流程免費網(wǎng)站推廣軟件
  • 做青蛙網(wǎng)站做網(wǎng)站怎么賺錢
  • 響應(yīng)式布局代碼怎么寫名詞解釋搜索引擎優(yōu)化
  • 一個網(wǎng)站推廣武漢新一輪疫情
  • 新開傳奇手游網(wǎng)站大全網(wǎng)站seo關(guān)鍵詞