網(wǎng)站公司技術(shù)交接蘭州做網(wǎng)站的公司
近期聽了不少與AI相關(guān)的播客,有理想轉(zhuǎn)型AI的分享,有Character.ai出來同事的分享等,結(jié)合對Transformer架構(gòu)的理解嘗試大致還原大語言模型的訓(xùn)練過程。不過,當我這樣的“中國大媽”也能夠大致琢磨明白大語言模型是如何訓(xùn)練出來的時候,大語言模型的神話大概見頂了吧。^-^當然,與底座大模型相比,基于大語言模型的應(yīng)用前景更為廣闊。
1. 語料集,李想提到理想做LLM底座模型用的都是公開語料集,合理推測比如Kaggle上、各家提供框架的公司(TensorFlow、PyTorch、PaddlePaddle等)都開放了不少語料集,比如raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt就有莎士比亞所有文章的內(nèi)容。仔細研究應(yīng)該能夠整理出所有可用的公開語料集。
2. 對數(shù)據(jù)做進一步處理并基于Transfomer模型(編碼器、解碼器、注意力機制)進行大模型預(yù)訓(xùn)練。
3. 因為是基于概率的模型,預(yù)訓(xùn)練出來的大語言模型一般不能夠滿足用戶像文心一言、ChatGPT對話的體驗,比如用戶如果輸入“今天星期幾”,按照概率大語言模型應(yīng)該輸出的是“?”,但顯然這并不符合用戶的期望。要基于高質(zhì)量的預(yù)料來對預(yù)訓(xùn)練出來的模型進行微調(diào)或者說后訓(xùn)練。
4. 后訓(xùn)練的方法應(yīng)該有不少技巧,一種樸素的思路是將處理好的高質(zhì)量語料對預(yù)訓(xùn)練大模型神經(jīng)網(wǎng)絡(luò)的較高層的節(jié)點參數(shù)進行重新訓(xùn)練以優(yōu)化模型。高質(zhì)量語料需要搜集,也有專門的公司負責(zé)清洗和銷售,OpenAI之前傳出的是在肯尼亞有數(shù)千人幫助標注預(yù)料應(yīng)該就是在準備高質(zhì)量語料。
5. 如果要達到文心一言和ChatGPT的水平還需要進一步優(yōu)化,一種優(yōu)化是根據(jù)用戶的輸入調(diào)用多個模型同時協(xié)同合作,最基本的比如用戶上傳一張圖片先調(diào)用OCR模型識別文字后再調(diào)用大語言模型進行處理。另一種優(yōu)化是通過編程來進行提示詞優(yōu)化、加入更多的Context信息(比如用戶問今天有什么大事發(fā)生,聊天機器人先調(diào)用網(wǎng)絡(luò)搜索來匯總信息后再通過大語言模型輸出)。
6. 大語言模型進一步優(yōu)化的空間一個是原始的訓(xùn)練語料上有優(yōu)化空間?,F(xiàn)在的說法是所謂互聯(lián)網(wǎng)的數(shù)據(jù)已經(jīng)用完了,這個說法不準確,互聯(lián)網(wǎng)每天會產(chǎn)生EB級別的數(shù)據(jù),大語言模型訓(xùn)練級別估計在PB級別,不可能用完互聯(lián)網(wǎng)數(shù)據(jù)。大語言模型使用的語料合理猜測包括所有的人類書本數(shù)據(jù)、所有GitHub等代碼庫的代碼數(shù)據(jù)、Facebook等社交媒體上的帶用戶反饋(喜歡、踩)標注的數(shù)據(jù)、新聞網(wǎng)站數(shù)據(jù)、博客數(shù)據(jù)、論文數(shù)據(jù)等。企業(yè)內(nèi)部的數(shù)據(jù)肯定拿不到,加了限制爬取的數(shù)據(jù)大概率也拿不到,網(wǎng)站放到歷史庫的數(shù)據(jù)大多也拿不到,社交媒體、新聞網(wǎng)站、博客等等數(shù)據(jù)拿的很可能也不全,所以如何在原始語料上進行優(yōu)化肯定是有空間。
7. 大語言模型另外優(yōu)化的空間還有強化學(xué)習(xí)、多模態(tài)等。