浙江溫州最新消息鄭州seo外包公司哪家好
Scikit-Learn線性回歸一
- 1、線性回歸概述
- 1.1、回歸
- 1.2、線性
- 1.3、線性回歸
- 1.4、線性回歸的優(yōu)缺點(diǎn)
- 1.5、線性回歸與邏輯回歸
- 2、線性回歸的原理
- 2.1、線性回歸的定義與原理
- 2.2、線性回歸的損失函數(shù)
- 3、Scikit-Learn線性回歸
- 3.1、Scikit-Learn庫(kù)
- 3.2、Scikit-Learn線性回歸API
- 3.3、Scikit-Learn線性回歸初體驗(yàn)
- 3.4、線性回歸案例(波士頓房?jī)r(jià)預(yù)測(cè))
- 4、附錄
1、線性回歸概述
線性回歸(Linear Regression)是很基礎(chǔ)的機(jī)器學(xué)習(xí)算法。線性回歸在機(jī)器學(xué)習(xí)知識(shí)結(jié)構(gòu)中的位置如下:
1.1、回歸
回歸(Regression)是一種應(yīng)用廣泛的預(yù)測(cè)建模技術(shù),這種技術(shù)的核心在于預(yù)測(cè)的結(jié)果是連續(xù)型變量
回歸是監(jiān)督學(xué)習(xí)中的一個(gè)重要問(wèn)題,用于預(yù)測(cè)輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,特別是當(dāng)輸入變量的值發(fā)生變化時(shí),輸出變量的值隨之發(fā)生的變化,回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)
其中,自變量表示主動(dòng)操作的變量,可以看做因變量的原因。因變量因?yàn)樽宰兞康淖兓兓梢钥醋鲎宰兞康慕Y(jié)果
回歸問(wèn)題的學(xué)習(xí)等價(jià)于函數(shù)擬合:選擇一條函數(shù)曲線,使其很好地?cái)M合已知數(shù)據(jù)且很好地預(yù)測(cè)未知數(shù)據(jù)
回歸的目的是為了預(yù)測(cè),比如預(yù)測(cè)明天的天氣溫度,預(yù)測(cè)股票的走勢(shì)…
回歸之所以能預(yù)測(cè)是因?yàn)樗ㄟ^(guò)歷史數(shù)據(jù),摸透了“套路”,然后通過(guò)這個(gè)套路來(lái)預(yù)測(cè)未來(lái)的結(jié)果
1.2、線性
“越…,越…”,符合這種說(shuō)法的就可能是線性個(gè)關(guān)系,例如,房子越大,價(jià)格就越高
但是并非所有“越…,越…”都是線性的,例如,“充電越久,電量越高”,它就類似下面的非線性曲線:
線性關(guān)系不僅僅只能存在2個(gè)變量(二維平面)。3個(gè)變量時(shí)(三維空間),線性關(guān)系就是一個(gè)平面,4個(gè)變量時(shí)(四維空間),線性關(guān)系就是一個(gè)體。以此類推…
1.3、線性回歸
線性回歸本身是統(tǒng)計(jì)學(xué)里的概念,現(xiàn)在經(jīng)常被用在機(jī)器學(xué)習(xí)中
在統(tǒng)計(jì)學(xué)中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方和函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析,這種函數(shù)是一個(gè)或多個(gè)被稱為回歸系數(shù)的模型參數(shù)的線性組合 。只有一個(gè)自變量時(shí)稱為簡(jiǎn)單回歸,大于一個(gè)自變量時(shí)稱為多元回歸
如果2個(gè)或者多個(gè)變量之間存在“線性關(guān)系”,那么我們就可以通過(guò)歷史數(shù)據(jù),摸清變量之間的“套路”,建立一個(gè)有效的模型,來(lái)預(yù)測(cè)未來(lái)的變量結(jié)果
1.4、線性回歸的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 建模速度快,不需要很復(fù)雜的計(jì)算,在數(shù)據(jù)量大的情況下依然運(yùn)行速度很快
- 可以根據(jù)系數(shù)給出每個(gè)變量的理解和解釋
缺點(diǎn):
- 不能很好地?cái)M合非線性數(shù)據(jù)。所以需要先判斷變量之間是否是線性關(guān)系
為什么在深度學(xué)習(xí)大殺四方的今天還使用線性回歸呢?
一方面,線性回歸所能夠模擬的關(guān)系其實(shí)遠(yuǎn)不止線性關(guān)系。線性回歸中的“線性”指的是系數(shù)的線性,而通過(guò)對(duì)特征的非線性變換,以及廣義線性模型的推廣,輸出和特征之間的函數(shù)關(guān)系可以是高度非線性的。另一方面,也是更為重要的一點(diǎn),線性模型的易解釋性使得它在物理學(xué)、經(jīng)濟(jì)學(xué)、商學(xué)等領(lǐng)域中占據(jù)了難以取代的地位
1.5、線性回歸與邏輯回歸
線性回歸和邏輯回歸是2種不同的經(jīng)典算法。經(jīng)常被拿來(lái)做比較,下面整理了一些兩者的區(qū)別:
比較項(xiàng) | 解決問(wèn)題類型 | 變量類型 | 線性關(guān)系 | 表達(dá)變量關(guān)系 |
---|---|---|---|---|
線性回歸 | 回歸 | 連續(xù) | 符合線性關(guān)系 | 直觀表達(dá)變量關(guān)系 |
邏輯回歸 | 分類 | 離散 | 可以不符合線性關(guān)系 | 無(wú)法直觀表達(dá)變量關(guān)系 |
- 線性回歸只能用于回歸問(wèn)題,邏輯回歸雖然名字叫回歸,但是更多用于分類問(wèn)題(關(guān)于回歸與分類的區(qū)別參考文章:傳送門)
- 線性回歸要求因變量是連續(xù)性數(shù)值變量,而邏輯回歸要求因變量是離散的變量
- 線性回歸要求自變量和因變量呈線性關(guān)系,而邏輯回歸不要求自變量和因變量呈線性關(guān)系
- 線性回歸可以直觀的表達(dá)自變量和因變量之間的關(guān)系,邏輯回歸則無(wú)法表達(dá)變量之間的關(guān)系
2、線性回歸的原理
2.1、線性回歸的定義與原理
線性回歸的定義及原理推導(dǎo)詳見(jiàn)文章:傳送門
2.2、線性回歸的損失函數(shù)
損失函數(shù)(Loss Function),也稱成本函數(shù)(Cost Function),描述的是模型的預(yù)測(cè)值與真實(shí)值的差異,并將這種差異映射為非負(fù)實(shí)數(shù)以表示模型可能帶來(lái)的“風(fēng)險(xiǎn)”或“損失”。機(jī)器學(xué)習(xí)中將損失函數(shù)作為模型擬合好壞的評(píng)判準(zhǔn)則,并通過(guò)最小化損失函數(shù)求解和評(píng)估模型
在多元線性回歸中,其損失函數(shù)定義如下:
L = ∑ i = 1 m ( y i ? f ( x i ) ) 2 L=\sum_{i=1}^m(y_i-f(x_i))^2 L=i=1∑m?(yi??f(xi?))