做酸菜視頻網(wǎng)站今日頭條國際新聞
基本概念
給定輸入有為(x,y)
,其中x表示學(xué)習(xí)特征,y表示輸出,m表示輸入總數(shù),有監(jiān)督學(xué)習(xí)旨在根據(jù)輸入建立能夠預(yù)測(cè)可能輸出的模型,大致可以分為回歸和分類兩種,代表可能輸出是無限的或是有限可能。
模型
線性回歸模型
通過數(shù)據(jù)集建立回歸模型,表現(xiàn)形式為根據(jù)數(shù)據(jù)點(diǎn)建立曲線,如y~=wx+b
,用于預(yù)測(cè)無限可能的數(shù)字。
分類模型
少量可能輸出的預(yù)測(cè),比如圖片內(nèi)容識(shí)別,音頻字符識(shí)別等情況。
基本訓(xùn)練過程為
訓(xùn)練集—學(xué)習(xí)算法—預(yù)測(cè)方法
成本函數(shù)J
用于衡量建立曲線與數(shù)據(jù)點(diǎn)的差異大小,即曲線的擬合程度,通過平均誤差成本函數(shù)實(shí)現(xiàn)—
除m
是為了避免誤差隨著數(shù)據(jù)集增大而增大,而除2是為了后續(xù)化簡(jiǎn),使程序整潔。
構(gòu)建模型的目的是使成本函數(shù)J盡可能小,為了簡(jiǎn)化,暫時(shí)不考慮b。
梯度下降
找w
和b
使成本函數(shù)最小的方法,也是逐步確定擬合曲線的方法,將參數(shù)初始化為0,每次嘗試使J
減小的方向,可視化如下:
本質(zhì)是通過切線找到三維圖像的最低點(diǎn),從任意點(diǎn)開始找w
和b
使成本函數(shù)最小的方法如式:
上述兩個(gè)迭代公式需同步計(jì)算,上述步驟不斷重復(fù)直到收斂,可以實(shí)現(xiàn)成本函數(shù)不斷向局部最小值更新,其中a
又稱學(xué)習(xí)率,用于控制上下坡的步幅。
線性回歸
用向量分別表示輸入x
和參數(shù)w
,f(x)=w·x+b
,特征多數(shù)據(jù)大時(shí),傳統(tǒng)計(jì)算方法耗時(shí)很長(zhǎng),故考慮采取其他技術(shù)解決。
矢量化
w=np.array([])
,x=np.array([])
生成向量,但計(jì)算時(shí)不使用循環(huán)乘法,二十直接調(diào)用f=np.dot(w,x)+b
實(shí)現(xiàn)點(diǎn)積運(yùn)算,該方法快于for
循環(huán),使用并行硬件,執(zhí)行快。
梯度下降
w
由原有計(jì)算式帶入可得
相應(yīng)的,b
的新計(jì)算式為
這里求導(dǎo)平方的2就和成本函數(shù)J
分母加的2抵消,使式子簡(jiǎn)潔。
另外還有法方程法可用,但該方法并不通用,只在這種場(chǎng)景下可以無需迭代求解w
和b
,但梯度下降是通用的方法。
特征縮放
單個(gè)特征對(duì)J
的影響很大時(shí),會(huì)導(dǎo)致曲線變化太大,梯度下降來回跳動(dòng),無法找到極值點(diǎn),如下圖
此時(shí)我們可以選擇縮放特性,使整體的特征值大致在同一范圍內(nèi),使用除法或平均歸一化方法。
判斷收斂
通過學(xué)習(xí)曲線檢查梯度下降是否收斂,如下圖
可以看出隨著迭代次數(shù)的上升成本函數(shù)不斷下降并趨于一個(gè)固定值,此時(shí)可以聲明其收斂,但該方法的難度在于確定一個(gè)閾值。
選擇學(xué)習(xí)率
太小則計(jì)算步驟增多,太大則可能跨過極值點(diǎn),導(dǎo)致計(jì)算永遠(yuǎn)達(dá)不到最小值,需要嘗試?yán)L圖找到合適的值,在接近最小值后由于偏導(dǎo)變化,步子會(huì)自動(dòng)變小,同樣需要嘗試根據(jù)學(xué)習(xí)曲線圖像選擇。
如果學(xué)習(xí)曲線上下擺動(dòng),則可能是學(xué)習(xí)率的選擇過于大了。
選擇特征
可以根據(jù)需要?jiǎng)?chuàng)建新特性,如果曲線不能線性擬合,也可以使用特征多項(xiàng)式提高特征次數(shù),獲得擬合曲線,在該部分特征縮放顯得尤其重要。
logistic回歸
用于分類,擬合一條橫S
曲線,用于二進(jìn)制的分類,具體公式如下,其中z=w·x+b
,0<g(z)<1
圖像大致如下:
該模型輸出一個(gè)范圍0-1
的數(shù)字,代表分類為1
的概率,多用于廣告推薦算法,輸出概率需設(shè)置閾值判定,常見的為0.5,該閾值稱為決策邊界,也就是z
為0時(shí)的取值。
損失函數(shù)
單個(gè)點(diǎn)的損失L
表示為:
L(z,y)= -log(z) y=1-log(1-z) y=0
具體含義為,當(dāng)y=1,預(yù)測(cè)為真則無損,預(yù)測(cè)為0則損失極大,y=0相同,預(yù)測(cè)為1損失極大,預(yù)測(cè)為0無損,區(qū)間的損失用對(duì)數(shù)函數(shù)覆蓋。
上述損失可以簡(jiǎn)化為:
當(dāng)y=1
或y=0
時(shí)帶入都可化簡(jiǎn)為初始式子。
總的損失函數(shù)J
是所有點(diǎn)損失集合的平均數(shù),表示為:
梯度下降
二者同樣需要同時(shí)計(jì)算,與線性回歸的區(qū)別只在f(x)
上,一個(gè)是f=w·x+b
,另一個(gè)是指數(shù)形式1/1+e^(w·x+b)
。
其他
矢量化,特征縮放,判斷收斂等,都與線性回歸相同。
正則化
擬合與數(shù)據(jù)不匹配,稱為偏差,擬合符合數(shù)據(jù),但變化太多不能適應(yīng)新數(shù)據(jù),稱為方差,或過擬合,如下三圖分別表示偏差,合格擬合和方差。
解決過擬合的方法有:
1,收集更多數(shù)據(jù),更大的訓(xùn)練集可以限制函數(shù),擬合出擺動(dòng)沒那么大的圖像
2,減少特征,數(shù)據(jù)不足但特征過多,易過擬合
3,減少參數(shù)大小,懲罰所有特征,可以使函數(shù)更平滑,表示公式如圖:
其中lambda>0
,使用正則化成本函數(shù)的思想為使w
盡可能小。
正則化線性回歸梯度下降
原有成本函數(shù)梯度下降為:
正則化logistic回歸梯度下降
總結(jié)
本章學(xué)習(xí)了監(jiān)督學(xué)習(xí)的兩種算法,回歸和分類,分別用于處理預(yù)測(cè)無限可能的數(shù)字,和有限輸出的類型,本質(zhì)都是通過對(duì)已有的數(shù)據(jù)建立擬合模型來實(shí)現(xiàn),區(qū)別在于擬合曲線不同,擬合模型內(nèi)部通過成本函數(shù)來衡量預(yù)測(cè)結(jié)果,每次模型調(diào)整又借助梯度下降實(shí)現(xiàn),三者統(tǒng)一完成模型的建立與調(diào)整,最后,通過正則化來解決過擬合。
總結(jié)的總結(jié),有監(jiān)督學(xué)習(xí)的要點(diǎn):標(biāo)簽、擬合曲線、成本函數(shù)、梯度下降、正則化,另外與無監(jiān)督學(xué)習(xí)的區(qū)別就在于訓(xùn)練集有標(biāo)簽,在特定領(lǐng)域和指定情況效果佳。
另外,正則化之前的函數(shù)中分母m
或2m
應(yīng)該提到最前并改為1/m
,修改工作量大偷個(gè)小懶。