當前位置：首頁 > news >正文

網(wǎng)站目錄不能訪問百度站長工具網(wǎng)站提交

news 2025/7/5 23:17:18

網(wǎng)站目錄不能訪問,百度站長工具網(wǎng)站提交,網(wǎng)站制作哪個軟件,推薦手機網(wǎng)址“Men pass away, but their deeds abide.” 人終有一死，但是他們的業(yè)績將永存。 ——奧古斯坦-路易柯西目錄前言簡單函數(shù)求極值復雜函數(shù)梯度法求極值泰勒展開梯度，Nabla算子 Cauchy-Schwarz不等式梯度下降算法算法流程梯度下降法…

“Men pass away, but their deeds abide.”

人終有一死，但是他們的業(yè)績將永存。

——奧古斯坦-路易·柯西

前言

簡單函數(shù)求極值

復雜函數(shù)梯度法求極值

泰勒展開

梯度，Nabla算子

Cauchy-Schwarz不等式

梯度下降算法

算法流程?

梯度下降法優(yōu)缺點

前言

? ? ? ? 在學習和訓練過程中，需要根據(jù)訓練樣本來確定一組與分類器模型相關的參數(shù)。學習過程往往要首先定義某個準則函數(shù)，用以描述參數(shù)的“合適性”，然后尋找一組“合適性”最大的參數(shù)作為學習的結果，也就是將學習問題轉化成針對某個準則函數(shù)的優(yōu)化問題

簡單函數(shù)求極值

? ? ? ? 對于簡單函數(shù)，根據(jù)數(shù)學分析的知識可知：

$m$ ?維矢量? $x'$ ?是? $f(x)$ ?的極值點的必要條件是：

$\frac{\partial f }{\partial x_i'}=0,\forall i \in [1,m]$

將所有的偏導數(shù)寫成矢量形式：

$\frac{\partial f(x)}{\partial x}=\begin{bmatrix} \frac{\partial f}{\partial x_1}\\ \vdots \\ \frac{\partial f}{\partial x_m} \end{bmatrix}=\begin{bmatrix} 0\\ \vdots \\ 0 \end{bmatrix}=\vec 0$

函數(shù)? $f(x)$ ?的極值點可以通過求解該矢量方程得到

? ? ? ? 但是，上述方程的解可能是極大值點，也可能是極小值點，也可能不是極值點，具體情況還需二階導數(shù)來判斷。?

? ? ? ? 如果希望求? $f(x)$ ?的極大值或極小值點，可以通過比較所有的極大值或極小值得到。

復雜函數(shù)梯度法求極值

? ? ? ? 對于簡單的純凸函數(shù)或純凹函數(shù)，由于只存在唯一的極值點，極值點即為最大值或最小值點，因此可以直接求解矢量方程? $\frac{\partial f(x)}{\partial x}=\vec 0$ ?得到? $f(x)$ ?的優(yōu)化解。

? ? ? ? 對于復雜函數(shù)來說，直接求解矢量方程得到優(yōu)化函數(shù)的極值點往往非常困難。在這種情況下，可以考慮采用迭代的方法從某個初始值開始，逐漸逼近極值點，即——梯度法

泰勒展開

如果給定了點? $x_0$ ?具有所有的前? $n$ ?階導數(shù)的函數(shù)? $f(x)$ ，我們稱多項式：

為函數(shù)? $f(x)$ ?在點? $x_0$ ?處的? $n$ ?階泰勒展開式

????????泰勒公式是高等數(shù)學中的一個非常重要的內容，它將一些復雜的函數(shù)逼近近似地表示為簡單的多項式函數(shù)，泰勒公式這種化繁為簡的功能，使得它成為分析和研究許多數(shù)學問題的有力工具?

考慮到多元函數(shù)? $f(x)$ ?在點? $x$ ?附近的一階泰勒展開式：

$f(x+\Delta x)=f(x)+\sum_{i=1}^m \frac{\partial f}{\partial x_i}\Delta x_i+r(x,\Delta x)$

其中：

???????? $\Delta x$ ?為矢量增量

???????? $\Delta x_i$ ?為其第? $i$ ?維元素

???????? $r(x,\Delta x)$ ?為展開式的余項

梯度，Nabla算子

接下來引入梯度的概念

?設二元函數(shù)? $z=f(x,y)$ ?在平面區(qū)域? $D$ ?上具有一階連續(xù)偏導數(shù)，則對于每一個點? $p(x,y)$ ?都可以定出一個向量：

$\{\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}\}=f_x(x,y)\vec i+f_y(x,y)\vec j$

稱作函數(shù)? $z=f(x,y)$ ?在點? $p(x,y)$ ?的梯度，記作? $\triangledown f(x,y)$

其中：

$\triangledown =\frac{\partial}{\partial x}\vec i+\frac{\partial }{\partial y}\vec j$

稱為（二維的）向量微分算子或Nabla算子

設? $e = \{cos\alpha ,cos\beta \}$ ?是方向? $l$ ?上的單位向量，則：

$\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}cos\alpha+\frac{\partial f}{\partial y}cos\beta=\triangledown f(x,y)e$

$=|\triangledown f(x,y)|\cdot|e|\cdot cos[\triangledown f(x,y),e]$

當? $l$ ?與梯度方向一致時，有：

$cos[\triangledown f(x,y),e]=1$

此時方向導數(shù)? $\frac{\partial f}{\partial l}$ ?有最大值，值為梯度的模：

$|\triangledown f(x,y)|=\sqrt{(\frac{\partial f}{\partial x})^2+(\frac{\partial f}{\partial y})^2}$

我們將其推廣到無窮維的情況：

設? $n$ ?維函數(shù)? $f(x)$ ?在空間區(qū)域? $G$ ?內具有一階連續(xù)偏導數(shù)，點? $P(x)\in G$ ，稱向量：

$\{\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}\}$

為函數(shù)???在點? $P$ ?處的導數(shù)，記為? $\triangledown f(x)$

?稍微集中一下注意力：

? ? ? ? ?注意到一階展開式中求和項? $\sum_{i=1}^m \frac{\partial f}{\partial x_i} \Delta x_i$ ，改寫為：

$\frac{\partial f}{\partial x_1}\Delta x_1 +\frac{\partial f}{\partial x_2}\Delta x_2+\cdots+\frac{\partial f}{\partial x_m}\Delta x_m$

? ? ? ? 不難發(fā)現(xiàn)，該求和式實際上為? $f(x)$ ?關于? $x$ ?的梯度矢量與矢量增量? $\Delta x$ ?之間的內積。

? ? ? ? 同時，令? $\Delta x\rightarrow 0$ ，有 $r(x,\Delta x)\rightarrow 0$ ，于是有：

$f(x+\Delta x)\approx f(x)+[\triangledown f(x)]^T\Delta x =f(x)+(\frac{\partial f}{\partial x})^T\Delta x$

? ? ? ? 如果要求取? $f(x)$ ?的極小值? $x'$ ，可以從某個初始點? $x_0$ ?開始搜索，每次增加一個增量? $\Delta x$ ，雖然不能保證? $x_0+\Delta x$ ?直接達到極小值點，但如果能夠保證每次迭代過程中函數(shù)值逐漸減小：

$f(x+\Delta x)<f(x)$

? ? ? ? 那么經(jīng)過一定的迭代次數(shù)之后，函數(shù)值能夠逐漸逼近極小值? $x'$ ，這是一個逐漸下降的過程，因此稱為梯度下降法。

? ? ? ? 更進一步，如果希望下降過程越快越好，用盡可能少的迭代次數(shù)逼近極小值，達到對極小值更高精度的逼近，這種方法稱為最速下降法

Cauchy-Schwarz不等式

要使函數(shù)值下降的最快，就是要尋找一個矢量增量? $\Delta x$ ?使得? $[\triangledown f(x)]^T\Delta x$ ?最小。

我們引入Cauchy-Schwarz不等式：

其向量形式（歐式空間）：

$x\cdot y=|x|\cdot|y|\cdot cos(x,y)\leq |x|\cdot|y|$

這里不做嚴謹?shù)淖C明，且該結論對于大部分人來說非常顯然

? ? ? ? 由于上面我們只展開到一階近似，當? $||\Delta x||$ ?過大時，余項? $r(x,\Delta x)$ ?便不能忽略，近似的精度會很差。因此不能直接尋找矢量增量，而是應該尋找使得函數(shù)值下降的最快的方向，也就是在約束? $||\Delta x|| =1$ ?的條件下，尋找使得? $[\triangledown f(x)]^T\Delta x$ ?最小的矢量增量。找到最速下降的方向后，在確定該方向上合適的矢量長度

? ? ? ? 根據(jù)柯西不等式：

$||[\triangledown f(x)]^T\Delta x||\leq ||\triangledown f(x)||\cdot||\Delta x||$

$(\triangledown f(x))^T\Delta x \geq -||\triangledown f(x)||\cdot||\Delta x|| = -||\triangledown f(x)||$

? ? ? ? 令

$\Delta x=-\frac{\triangledown f(x)}{||\triangledown f(x)||}$

????????有：

$[\triangledown f(x)]^T\Delta x=[\triangledown f(x)]^T[-\frac{\triangledown f(x)}{||\triangledown f(x)||}]$

$=-\frac{[\triangledown f(x)^T]\triangledown f(x)}{||\triangledown f(x)||}$

$=-\frac{||\triangledown f(x)||^2}{||\triangledown f(x)||}$

$=-||\triangledown f(x)||$

? ? ? ? 可以得到，當? $\Delta x$ ?為負的梯度方向時，不等式等號成立， $[\triangledown f(x)]^T\Delta x$ ?取得最小值，函數(shù)值下降速度最快。

? ? ? ? 所以，最速下降法按照以下方式進行迭代：

$x=x+\Delta x=x-\eta \triangledown f(x)$

? ? ? ? 其中? $\eta$ ?一般被稱為“學習率” ，用于控制矢量的長度。如果是要尋找極大值，則? $\Delta x$ ?應當沿梯度正方向。

梯度下降算法

因為代碼求梯度非常困難~~，博主手搓不出來，~~這里只給算法流程

算法流程?

初始化： $x_0,\eta,\theta,i=0$
循環(huán)，直到 $||\eta\triangledown f(x)|_{x=x_i}||<\theta$
計算當前點的梯度矢量： $\triangledown f(x)|_{x=x_i}$
更新優(yōu)化解： $x_{i+1}=x_i-\eta\triangledown f(x)|_{x=x_i}$
$i=i+1$
輸出優(yōu)化解

? ? ? ? 參數(shù)? $\theta$ ?為收斂精度，值越小，輸出解越接近極小值點，同時迭代次數(shù)越多。

梯度下降法優(yōu)缺點

優(yōu)點：

算法簡單，只要知道任意一點的梯度矢量就能進行迭代優(yōu)化?
在學習率合適的情況下，算法能很好的收斂到極小值點

缺點：

對于梯度值較小的區(qū)域，收斂速度很慢
收斂性依賴于學習率的設置，與初始值選擇無關，但目前對于某個具體問題來說，還沒有能夠直接確定學習率的方法
梯度下降只能保證收斂于一個極值點，無法一次計算出所有的極值點，具體收斂到哪個極值點依賴于初始值的設置
梯度下降不能保證求得的極小值是全局最小值?

參考文獻

【1】模式識別 -?劉家鋒

【2】數(shù)學分析（一）- 崔國輝

查看全文

http://www.risenshineclean.com/news/9278.html