網(wǎng)站建設(shè)公司新聞免費(fèi)發(fā)布信息網(wǎng)站大全
數(shù)據(jù)挖掘——回歸算法
- 回歸算法
- 線性回歸
- 最小二乘法
- 優(yōu)化求解——梯度下降法
- 邏輯回歸
- 邏輯回歸函數(shù)
- 邏輯回歸參數(shù)估計(jì)
- 邏輯回歸正則化
- 決策樹回歸
- 小結(jié)
回歸算法
回歸分析
如果把其中的一些因素(房屋面積)作為自變量,而另一些隨自變量的變化而變化的變量作為因變量(房價(jià)),研究他們之間的非確定映射關(guān)系,這種分析就稱為回歸分析。
回歸分析是研究一個(gè)或多個(gè)自變量與一個(gè)因變量之間是否存在某種線性關(guān)系或非線性關(guān)系的一種統(tǒng)計(jì)學(xué)方法。
回歸和分類的區(qū)別:
分類和回歸的區(qū)別在于輸出變量的類型。定量輸出稱為回歸,或者說是連續(xù)變量預(yù)測;
定性輸出稱為分類,或者說是離散變量預(yù)測。
線性回歸
線性回歸假設(shè)特征和響應(yīng)滿足線性關(guān)系
一元線性回歸問題函數(shù)關(guān)系可表示
y = a + b x y=a+bx y=a+bx
- 根據(jù)上式,在確定a、b的情況下,給定一個(gè)x值,我們就能夠得到一個(gè)確定的y值,然而根據(jù)上式得到的y值與實(shí)際的y值存在一個(gè)誤差
- a、b為參數(shù)(parameters)、或稱回歸系數(shù)(regression coefficients)
采用什么樣的線性關(guān)系誤差刻畫更好呢?
最小二乘法
基本思想:保證直線與所有點(diǎn)接近
詳細(xì)做法:
若有n個(gè)樣本點(diǎn): ( x 1 , y 1 ) , … , ( x n , y n ) (x_1,y_1),… ,(x_n,y_n) (x1?,y1?),…,(xn?,yn?),可以用下面的表達(dá)式來刻畫這些
點(diǎn)與直線y=a+bx的接近程度:
[ y 1 ? ( a + b x 1 ) ] 2 + . . . + [ y n ? ( a + b x n ) ] 2 [y_1-(a+bx_1)]^2+...+[y_n-(a+bx_n)]^2 [y1??(a+bx1?)]2+...+[yn??(a+bxn?)]2
使上式達(dá)到最小值的直線y=a+bx就是所求的直線,這種方法稱為最小二乘法。
對a和b求偏導(dǎo)數(shù),可以得到:
b = x 1 y 1 + . . . + x n y n ? n x ˉ y ˉ x 1 2 + . . . + x n 2 ? n x ˉ 2 , a = y ˉ ? b x ˉ b=\frac{x_1y_1+...+x_ny_n-n\bar x\bar y}{x_1^2+...+x_n^2-n\bar x^2},a=\bar y-b\bar x b=x12?+...+xn2??nxˉ2x1?y1?+...+xn?yn??nxˉyˉ??,a=yˉ??bxˉ
優(yōu)化求解——梯度下降法
基本思想
- 向著梯度的反方向調(diào)整
- 步長不能太大,也不能太小
邏輯回歸
邏輯回歸函數(shù)
f ( x ) = e x 1 + e x f(x)=\frac{e^x}{1+e^{x}} f(x)=1+exex?,值域?yàn)閇0,1]
邏輯回歸參數(shù)估計(jì)
使用梯度下降方法,迭代求解參數(shù)
邏輯回歸正則化
W在數(shù)值上越小越好,這樣越能抵抗數(shù)據(jù)的擾動(dòng)
L1傾向于使得w要么取1,要么取0稀疏編碼
L2傾向于使得w整體偏小(嶺回歸)
L1適合挑選特征
L2也稱為嶺回歸,有很強(qiáng)的概率意義
決策樹回歸
決策樹是將空間用超平面進(jìn)行劃分的一種方法,每次分割的時(shí)候,都將當(dāng)前的空間一分為二, 這樣使得每一個(gè)葉子節(jié)點(diǎn)都是在空間中的一個(gè)不相交的區(qū)域,在進(jìn)行決策的時(shí)候,會(huì)根據(jù)輸入樣本每一維feature的值,一步一步往下,最后使得樣本落入N個(gè)區(qū)域中的一個(gè)(假設(shè)有N個(gè)葉子節(jié)點(diǎn)),如下圖所示。
既然是決策樹,那么必然會(huì)存在以下兩個(gè)核心問題:如何選擇劃分點(diǎn)?如何決定葉節(jié)點(diǎn)的輸出值?——決策樹分類選擇劃分點(diǎn),使得信息增益最大,葉節(jié)點(diǎn)輸出即類別
一個(gè)回歸樹對應(yīng)著輸入空間(即特征空間)的一個(gè)劃分以及在劃分單元上的輸出值。分類樹中采用信息增益等方法,通過計(jì)算選擇最佳劃分點(diǎn)。而在回歸樹中,采用的是啟發(fā)式的方法。