中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

網(wǎng)站在阿里云備案免費數(shù)據(jù)統(tǒng)計網(wǎng)站

網(wǎng)站在阿里云備案,免費數(shù)據(jù)統(tǒng)計網(wǎng)站,搜索引擎網(wǎng)站錄入,給個網(wǎng)址2022年能用的2025.2.17晚上21:57看完了整個視頻,作為一個ai專業(yè)的學生雖然每天都在用ai,但是對于其背后的原理卻不是那么清楚,而卡帕西的這支視頻卻讓我醍醐灌頂,而且全程聽起來很舒服,沒有知識強行進入腦子的痛感,在他…

2025.2.17晚上21:57看完了整個視頻,作為一個ai專業(yè)的學生雖然每天都在用ai,但是對于其背后的原理卻不是那么清楚,而卡帕西的這支視頻卻讓我醍醐灌頂,而且全程聽起來很舒服,沒有知識強行進入腦子的痛感,在他的講解下一切都是那么的自然,所有內(nèi)容娓娓道來,感謝karpathy的講解,記住他的提醒,ai只是你的工具,他并不神秘。

AI 大神Karpathy再發(fā)LLM介紹視頻,入門必看!_嗶哩嗶哩_bilibili

那么好,接下來就是我對這個視頻的學習筆記部分了,我將根據(jù)視頻內(nèi)容分為四個部分,按順序來分別是pre training,post training,rl,other

一、預訓練(0:00:00-1:00:00)

視頻主旨是介紹到底什么是llm,我們在使用的時候需要注意什么缺陷,你在和他對話的時候究竟是在和一個什么樣的東西說話。

如何構(gòu)建一個chatgpt?

  1. 下載和處理互聯(lián)網(wǎng)數(shù)據(jù),網(wǎng)站:huggingface/fineweb,講解如何構(gòu)建一份互聯(lián)網(wǎng)數(shù)據(jù)。本質(zhì)上是爬蟲,爬取互聯(lián)網(wǎng)上的高質(zhì)量文檔。common crawl是一個互聯(lián)網(wǎng)組織,做的事情就是掃描索引互聯(lián)網(wǎng)上的各種網(wǎng)頁,跟蹤鏈接,最終就拿到了很多互聯(lián)網(wǎng)數(shù)據(jù)。

    1. 然后開始過濾。首先是URL過濾,過濾到你不想要的網(wǎng)站。然后是文本提取,從html中提取出文本,也就是說去掉各種各樣的修飾。那么在這一步其實公司就可以控制自己模型對于語言的側(cè)重,比如我排除掉中文網(wǎng)頁,那么模型在最后的中文表現(xiàn)一定很垃圾,還有很多步驟,但是總體來說是這樣的流程。
    2. 最后講這些文本連接在一起,就形成了一個純文字的txt文本,相當震撼。我們開始用它訓練神經(jīng)網(wǎng)絡,這樣神經(jīng)網(wǎng)絡就可以內(nèi)化并建模這些文本的流動方式。

    請?zhí)砑訄D片描述

  2. 決定如何表示這些文本,以及如何輸入它

    1. 因為這些神經(jīng)網(wǎng)絡接受一維的符號序列,雖然這些文本已經(jīng)是連續(xù)的一維序列了,但是計算機本質(zhì)上只能接受0和1,所以我們需要用數(shù)字來表示。并且這個序列我們不想讓他僅有0和1兩個字符,這樣序列也會太長,那會占用大量的資源,我們需要去權(quán)衡這個詞匯表的數(shù)量。
    2. 當我們將每8個bit看做一個處理單元(現(xiàn)在還沒有引入token的概念)的時候,就把序列長度縮短了8倍,數(shù)字大小在0~255之間。這里我們嚴重可以講這些數(shù)字看作為一個獨特的emoji
    3. 在制作現(xiàn)代的大模型的時候,我們?yōu)榱死^續(xù)縮短序列長度,可以表達出更多的emoji,我們會尋找非常常見的連續(xù)字符,舉個例子,“你”和“好”就經(jīng)常一起出現(xiàn),那么我們就可以把他倆組合成一個新的emoji,編號為256.以此類推,現(xiàn)在的大模型詞匯表大小量級在10萬左右(gpt4:100277)
    4. 文本轉(zhuǎn)化成這些emoji的過程,我們就稱之為tokenization(標記化)
    5. 形象的觀察gpt是如何進行標記化的,登錄:https://tiktokenizer.vercel.app

    請?zhí)砑訄D片描述

    我們在這里就可以看到之前很火的一個問題strawberry有幾個r,在這里就被分成了三個token,這個問題后面我們會再次談到。還可以試試hello world等等詞語,很有意思的一個觀察,獲得對“token”的一個直觀感受。連不同數(shù)量的空格對應的都有獨特的token.在gpt中就一共有10萬個這樣的token

  3. nerural network training

    1. 在這一步我們是要建模這些token在序列中如何相互跟隨的統(tǒng)計關(guān)系。我們在數(shù)據(jù)海洋中隨機選擇一段文本,同時長度大小(也叫窗口長度)不易過大,窗口的長度可以在0-max之間隨便變化,一般max就是取4千8千這種,處理太多的token在計算上是expensive。
    2. 比如說我現(xiàn)在去了4個token作為模型輸入了,剩下的就是和學過的深度學習一樣,降低loss,讓預測和實際的下一個token一樣。注意,這里的4個token就稱為context(上下文)。模型的輸出是這100277個token分別對應的概率。整個網(wǎng)絡在訓練過程中正在并行的重演無數(shù)次這樣的預測和改進。
    3. 神經(jīng)網(wǎng)絡內(nèi)部的樣子:

    請?zhí)砑訄D片描述

    這個網(wǎng)絡中的參數(shù)在一開始是隨機的,但是在訓練過后就會逐漸形成訓練文本中的統(tǒng)計關(guān)系。你可以想象這個網(wǎng)絡就像DJ的調(diào)音臺,你不斷微調(diào)這個調(diào)音臺上的各種參數(shù)旋鈕,最終能夠演奏出曲風相似的音樂來

    想要觀看一個實際的生產(chǎn)級示例,這個網(wǎng)站:https://bbycroft.net/llm,展示了具體的模型,但是內(nèi)部的模型結(jié)構(gòu)并不是我們關(guān)注的焦點,因為這個教程是面向非技術(shù)人員的,具體的技術(shù)分析會放在另外的筆記中
    4. 推理部分:算法和訓練是一模一樣的,只是參數(shù)不用再變化。karpathy在講的時候也始終保持著通俗易懂的講法,比如在推理時我們輸入一些token,然后模型開始根據(jù)這些token擲硬幣,將可能性最大的硬幣選出來,必須強調(diào),這是個隨機系統(tǒng)!所以我們并不太可能完全重現(xiàn)我們訓練文本中的內(nèi)容,模型學到的其實是一種有損壓縮ok吧。
    5. 在實際過程中我們在訓練時會嘗試不同種類設置,不同種類排列,和不同尺寸的網(wǎng)絡。當有一個好的參數(shù)的時候,你就ship他,嘻嘻。
    6. GPT-2 從現(xiàn)在的視角來看gpt-2和現(xiàn)在的模型并沒有什么區(qū)別,只是所有東西都變得更大。token的最大上下文才是1024個,意味著無論是訓練還是推的時候他的窗口大小都不會差過1024.上下文和窗口的含義略有區(qū)別,在這里做一些嚴謹?shù)亩x

    總結(jié)來說:

    ?上下文是模型理解和生成的內(nèi)容,它是動態(tài)的,取決于模型正在處理的文本。

    ?窗口是一個固定大小的滑動范圍,它限定了模型能看到的上下文的長度。

    請?zhí)砑訄D片描述

    1. 記住,重要指標就是loss,越低越好,就能更好的預測下一個標記。這樣訓練出來的模型叫做基礎(chǔ)模型 base model ,他只是一種互聯(lián)網(wǎng)文本的模擬器,并不是我們現(xiàn)在常用的assitant,可以在大模型實驗場試一下這兩類模型的回答,相當明顯的區(qū)別
    2. base model vs instruct model 他倆的區(qū)別可能用具體的回答來展示更為直觀。雖然base model并不能像chatgpt一樣正?;卮饐栴},但是還是可以通過設計完成一些任務(雖然我覺得沒什么必要)

二、后訓練:監(jiān)督微調(diào)(1:00:00-2:07:00)

post training在計算上比預訓練要便宜的多,在這里我們講一個模型變成一個助手。

具體做法就是給他一些人類對話的數(shù)據(jù)集,讓模型學習,完全相同的算法,只是換了一下數(shù)據(jù)集。在這個過程中有一些和前面相關(guān)聯(lián)的知識點

  1. 對話的分詞處理,我們制定一個規(guī)則或者數(shù)據(jù)結(jié)構(gòu),將對話編碼為token

    請?zhí)砑訄D片描述

    如圖所示的 <|im_start>就是一種顯著的token,也是我們在后訓練期間新增加的一個token,在那十萬個token之中(所有句子只是那十萬個token的排列組合而已,莫忘莫忘),以 <|im_end> 結(jié)束對話。這個方法的發(fā)明也是openai的杰作,發(fā)的有論文。

    kapathy在這里也非常哲學式地思考我們在和chatgpt對話的時候到底是在和什么對話?式給他標注對話數(shù)據(jù)集的人類么?只是人類標注者的模擬

  2. 幻覺

    1. 幻覺從何而來?因為在對話數(shù)據(jù)集中都是自信滿滿的回答,早期模型并沒有學會說不哈哈,所以他必須繼續(xù)依靠概率輸出自己的回答,這就是所謂幻覺。但是如果在數(shù)據(jù)集中加入了對于不知道問題的回答示例,那么模型就能學會:在知道自己不知道的時候敢于說不知道。

    2. 首先要明確自己的模型不知道什么,搞清楚模型的知識邊界(其實就是問很多問題,然后把所有他確實不知道的問題單獨列成數(shù)據(jù)集進行訓練);然后針對這些數(shù)據(jù)集進行“不知道”的回答。這樣的做法聽起來似乎非常簡單,但是卻很有用,因為在base模型中模型可能已經(jīng)有了自我認知,你知道自己不知道某些事情,某些時候特定的幾個神經(jīng)元將會亮起,那個時候就應該是說不知道的時候了!只需要稍加演示他們就能學會。

    3. 緩解幻覺的第二個方法:加入網(wǎng)絡搜索,也是加入一組新的token表示搜索,比如看到說<search_satrt> and <search_end>這種,就去執(zhí)行搜索,講搜索結(jié)果放進上下文。同樣的,構(gòu)造數(shù)據(jù)集讓模型訓練和學習。同時強化一個認知,就是大模型的記憶是對話聯(lián)網(wǎng)知識的有損壓縮,上下文是直接記憶,可以直接用的,無損的。因為當你需要更精確的內(nèi)容的時候最好可以在上下文中直接給出參考資料而不是僅僅依靠他的記憶力。

      請?zhí)砑訄D片描述

    4. 還有一點就是模型的自我認知,比如我們問deepseek他可能會回答自己是openai訓練的,但實際上如果不預先訓練的話,ai只是從訓練資料中選擇最佳回答,無疑openai和chatgpt是被提到最多的,他不知道自己是誰,只有給他看一些對話數(shù)據(jù)集才行哦。

    5. 關(guān)于如何讓模型的數(shù)學計算能力變強?本質(zhì)上這還是涉及到神經(jīng)網(wǎng)絡結(jié)構(gòu),及其計算方式。比如下面這道數(shù)學題,我們應該選擇哪種解法放進訓練集呢?肯定是第二種!第一種直接給出答案本質(zhì)上就是在心算,因為都是根據(jù)前文的概率吐出下一個字,也就是說這個答案只是經(jīng)驗的結(jié)果;第二個解答過程就是一步一步的推導,得出最終答案之后模型已經(jīng)經(jīng)過了充分的思考,答案就更有可信度。更理論一點的來講,每個token經(jīng)過整個網(wǎng)絡的計算量是有限的,在得到答案前盡可能多的思考肯定是有利的。其實我們多實驗幾個例子之后不難發(fā)現(xiàn),讓模型直接說出答案往往是錯誤答案。

      請?zhí)砑訄D片描述

      包括模型的計數(shù)能力,查草莓的r,查。。。。的點數(shù),都不會太好,一個是上面說的,模型的心算能力并不是很強,第二個原因就是模型都是token化的,查數(shù)也不友好,他們看不見字符,他的世界里只有token,或許我們將來會有一個字符級或字節(jié)級的模型,但是那樣序列會很長,目前還不知道要如何處理。

      包括9.11和9.9比大小,這個有可能是圣經(jīng)讀太多了(bushi

三、強化學習(2:10:00)

大神在這解題節(jié)的開始用學生學習一本書承上啟下:課本知識就像是預訓練,例題就像是SFT,那么RL就是課后習題,給你答案,模型要自己找出最好的解題路徑。

請?zhí)砑訄D片描述

為什么這很重要?因為llm的語言與我們?nèi)祟惖恼Z言并不相通,我們并不知道對于llm而言什么樣的token排列方式能夠更好的求解出答案,因此我們最好是讓模型自己來摸索,根據(jù)最終答案來進行反饋,找到自己寫題的最佳思考方式。

總結(jié)就是:認知不同,不要瞎摻合

RL的過程:比如讓模型寫一道題,嘗試多次,每一次嘗試都會生成不同的結(jié)果。假設結(jié)果如下圖所示,有正確的有錯誤的,我們的目的是鼓勵那些能得出正確答案的解決方案,所以就用這些正確的解題過程拿去訓練模型(肯定要訓練啊,不然模型現(xiàn)在不還是不會寫這道題,方法論略有不同但思想一樣)

請?zhí)砑訄D片描述

所以在前面進行的SFT等一系列操作都是有必要的,相當于講模型帶到了正確解的附近,模型只需要開始嘗試即可,有很大概率能寫出正確答案,而強化學習就是那臨門一腳!

deepseek是第一家公開贊揚強化學習對大模型作用的公司,引起了大家對于強化學習的信心,圖為強化學習后的ds模型在AIME數(shù)學題上提升

請?zhí)砑訄D片描述

而且模型在學習過程中用到的token也越來越多,這是自然而然的表現(xiàn),模型在rl過程中學會了多角度思考和驗證自己的思路,稱為涌現(xiàn)。這都是模型自己學出來的,因為沒有人類標注員在回答里面嵌入這些思考過程,amazing啊llm,aha moment

談到強化學習,就繞不過去一個東西,alphago。當我們將目光投向AlphaGo的論文,發(fā)現(xiàn)了一個似曾相識的圖表。。。

請?zhí)砑訄D片描述

從圖中可以看出,單純的模仿并不能超越人類玩家,但是探索可以。

第37步:指神之一手,阿爾法狗打出來的。

四、雜談(RLHF、Karpathy對未來的一些思考)(2:47:00-3:09:00是未來展望)

在不可驗證領(lǐng)域,比如寫作,講笑話這種,不好直接打分,所以我們的解決方法是:

RLHF:(注意:他的本質(zhì)當然是RL,但他更像是是一種微調(diào),因為這個強化學習并不能無限運行下去)人類先訓練一個模型,充當評分器(這個訓練好的模型要與人類的偏好保持一致),比如判斷小說的好笑程度,對回答排個序,然后模型就可以基于此進行訓練。這個方法來源于openai的一篇論文:在無人驗證的領(lǐng)域進行強化學習
請?zhí)砑訄D片描述

這個方法的好處:讓我們能再人愿意領(lǐng)域進行實驗,包括那些無法驗證的領(lǐng)域;而且允許人們在不必完成極其困難的人物的情況下提供他們的監(jiān)督,比如寫詩。

顯著缺點:一開始模型的表現(xiàn)會逐漸變好,但是到最后他的表現(xiàn)可能會一落千丈,因為被模型內(nèi)部發(fā)現(xiàn)了這種訓練方式在這個問題下的不足(強化學習很擅長找到欺騙他的方式),也就是說,總會有很荒謬的結(jié)果來干預這個過程,畢竟這個模擬器他并不完美。因此我們在模型改善差不多之后應該立刻進行裁剪,不然就會變差。

ok,差不多到這里就結(jié)束了!3小時之后的內(nèi)容就沒有再做記錄了,因為個人感覺重復有點多,,很多信息現(xiàn)在也都知道了。學的很爽。RL正在覺醒….

http://www.risenshineclean.com/news/42392.html

相關(guān)文章:

  • 禮品公司網(wǎng)站建設好的競價托管公司
  • 天津建設工程信息網(wǎng)專家sem 優(yōu)化價格
  • 網(wǎng)站上添加子欄目濰坊百度網(wǎng)站排名
  • 深圳網(wǎng)站建設公司是選擇寧波seo優(yōu)化公司
  • 備案上個人網(wǎng)站和企業(yè)網(wǎng)站的區(qū)別百度sem是什么意思
  • wordpress開啟多站點功網(wǎng)絡營銷有哪些特點
  • 網(wǎng)站優(yōu)化 代碼優(yōu)化互聯(lián)網(wǎng)優(yōu)化
  • 如何為網(wǎng)站開發(fā)app中公教育培訓機構(gòu)官網(wǎng)
  • 便宜網(wǎng)站建設公司如何建立自己的網(wǎng)站平臺
  • 微信怎么做捐錢的網(wǎng)站網(wǎng)站推廣費用
  • 一站式裝修平臺杭州seo論壇
  • 網(wǎng)頁設計網(wǎng)站建設過程報告免費網(wǎng)站入口在哪
  • 石碣仿做網(wǎng)站seo技術(shù)分享博客
  • 知名跟單網(wǎng)站做信號提供方女教師網(wǎng)課入06654侵錄屏
  • 安徽做網(wǎng)站免費seo排名軟件
  • 石家莊便宜網(wǎng)站制作html底部友情鏈接代碼
  • 做動態(tài)網(wǎng)站的軟件有哪些最近軍事新聞熱點大事件
  • 為什么做民宿網(wǎng)站百度競價排名公式
  • 網(wǎng)站開發(fā)設計定制百度谷歌seo優(yōu)化
  • 開發(fā)一個網(wǎng)站測試要怎么做的seo平臺優(yōu)化服務
  • 上海網(wǎng)站建設品ui培訓
  • 網(wǎng)站集約化建設情況匯報網(wǎng)絡營銷咨詢服務
  • 做網(wǎng)站域名 空間廣州競價托管
  • 學校網(wǎng)站群建設方案找個網(wǎng)站
  • 淘客請人做網(wǎng)站網(wǎng)站策劃書
  • 做網(wǎng)站大概要多外鏈怎么打開
  • 如何建設網(wǎng)站的管理平臺免費網(wǎng)站seo
  • 婁底網(wǎng)站建設工作室谷歌收錄查詢
  • 成都建設網(wǎng)站微營銷官網(wǎng)
  • 市局網(wǎng)站建設建議如何注冊自己的網(wǎng)站