深圳建網(wǎng)站seo中國(guó)十大it培訓(xùn)機(jī)構(gòu)排名
1、設(shè)置問題
投入的廣告費(fèi)越多,廣告的點(diǎn)擊量就越高,進(jìn)而帶來訪問數(shù)的增加。

2、定義模型
定義一個(gè)函數(shù):一次函數(shù)
y = ax + b? (a 是斜率、b 是截距)

定義函數(shù):

3、最小二乘法

例子: ?用隨便確定的參數(shù)計(jì)算的值與實(shí)際的值存在偏差。


假設(shè)有 n 個(gè)訓(xùn)練數(shù)據(jù), 那么它們的誤差之和可以用這樣的表達(dá)式表示。
這個(gè)表達(dá)式稱為 目標(biāo)函數(shù),E(θ) 的 E 是誤差的英語(yǔ)單詞 Error 的首字母,∑讀作“西格瑪”。

這么做是為了找到使 E(θ) 的值最小 的 θ,這樣的問題稱為最優(yōu)化問題。
來計(jì)算一下表格 E(θ) 的值,設(shè) θ0 = 1、θ1 = 2, 然后將剛才列舉的 4 個(gè)訓(xùn)練數(shù)據(jù)代入表達(dá)式

4、梯度下降法(最速下降法)
微分是計(jì)算變化的快慢程度時(shí)使用的方法。


函數(shù) g(x):

微分(求導(dǎo)):

x < 1 為負(fù)數(shù),x = 1 為0,x > 1 為正數(shù)。
根據(jù)導(dǎo)數(shù)的符號(hào)來決定移動(dòng) x 的方向,只要向與導(dǎo)數(shù)的符號(hào)相反的方向移動(dòng) x,g(x) 就會(huì)自然而然地沿著最小值的方向前進(jìn)了, 這也被稱為最速下降法或梯度下降法 。

η??是稱為學(xué)習(xí)率的正的常數(shù),讀作“伊塔”。根據(jù)學(xué)習(xí)率的大小, 到達(dá)最小值的更新次數(shù)也會(huì)發(fā)生變化。換種說法就是收斂速度會(huì) 不同。有時(shí)候甚至?xí)霈F(xiàn)完全無法收斂,一直發(fā)散的情況。
比如 η = 1,從 x = 3 開始 (結(jié)果是一直發(fā)散,無法收斂):


那設(shè) η = 0.1,同樣從 x = 3 開始:


回過頭來看一下目標(biāo)函數(shù) E(θ):

這個(gè)目標(biāo)函數(shù)是擁有 θ0 和 θ1 的雙變量函數(shù),所以不能用 普通的微分,而要用偏微分:

設(shè):

計(jì)算微分:




同樣:


所以參數(shù) θ0 和 θ1 的更新表達(dá)式是:

5、多項(xiàng)式回歸
上面是一次函數(shù),用更大次數(shù)的表達(dá)式, 這樣就能表示更復(fù)雜的曲線。

不過對(duì)于要解決的問題,在找出最合適的表達(dá)式之前,需要 不斷地去嘗試。
雖然次數(shù)越大擬合得越好,但難免也會(huì)出現(xiàn)過擬合的問題。
如二次函數(shù):

曲線如下:

曲線看起來更擬合數(shù)據(jù)。
計(jì)算微分:


像這樣增加函數(shù)中多項(xiàng)式的次數(shù),然后再使用函數(shù)的分析方法被稱為多項(xiàng)式回歸。
6、多重回歸
多項(xiàng)式回歸問題中確實(shí)會(huì)涉及不同次數(shù)的項(xiàng),但是使用的變量依然只有廣告費(fèi)一項(xiàng)。
我們稍微擴(kuò)展一下之前設(shè)置的問題。之前只是根據(jù)廣告費(fèi)來預(yù) 測(cè)點(diǎn)擊量,現(xiàn)在呢,決定點(diǎn)擊量的除了廣告費(fèi)之外,還有廣告的 展示位置和廣告版面的大小等多個(gè)要素。
為了讓問題盡可能地簡(jiǎn)單,這次我們只考慮廣告版面的大小,設(shè) 廣告費(fèi)為 x1、廣告欄的寬為 x2、廣告欄的高為 x3,那么 fθ 可以 表示如下:

下面我們把它推廣到有 n 個(gè)變量的情況:

使用向量表示:



求微分:
u 對(duì) v 微分的部分是一樣的,所以只需要求 v 對(duì) θj 的微分就好了

那么第 j 個(gè)參數(shù)的更新表達(dá)式就是這樣的:

像這樣包含了多個(gè)變量的回歸稱為多重回歸。
7、隨機(jī)梯度下降法
梯度下降法是對(duì)所有的訓(xùn)練數(shù)據(jù)都重復(fù)進(jìn)行計(jì)算,缺點(diǎn)是計(jì)算量大、計(jì)算時(shí)間長(zhǎng),且容易陷入局部最優(yōu)解 。

在隨機(jī)梯度下降 法中會(huì)隨機(jī)選擇一個(gè)訓(xùn)練數(shù)據(jù),并使用它來更新參數(shù)。這個(gè)表達(dá) 式中的 k 就是被隨機(jī)選中的數(shù)據(jù)索引:

梯度下降法更新 1 次參數(shù)的時(shí)間,隨機(jī)梯度下降法可以更新 n 次。 此外,隨機(jī)梯度下降法由于訓(xùn)練數(shù)據(jù)是隨機(jī)選擇的,更新參數(shù)時(shí)使用的又是選擇數(shù)據(jù)時(shí)的梯度,所以不容易陷入目標(biāo)函數(shù)的局部最優(yōu)解。
我們前面提到了隨機(jī)選擇 1 個(gè)訓(xùn)練數(shù)據(jù)的做法,此外還有隨機(jī)選 擇 m 個(gè)訓(xùn)練數(shù)據(jù)來更新參數(shù)的做法。
設(shè)隨機(jī)選擇 m 個(gè)訓(xùn)練數(shù)據(jù)的索引的集合為 K,那么我們這樣 來更新參數(shù):

這種做法被稱為小批量(mini-batch)梯度下降法。
不管是隨機(jī)梯度下降法還是小批量梯度下降法,我們都必須考慮 學(xué)習(xí)率 η。
把 η 設(shè)置為合適的值是很重要的, 可以通過反復(fù)嘗試來找到合適的值。