當(dāng)前位置：首頁 > news >正文

海宏集團(tuán)網(wǎng)站建設(shè)朋友圈網(wǎng)絡(luò)營銷

news 2025/7/10 5:52:20

海宏集團(tuán)網(wǎng)站建設(shè),朋友圈網(wǎng)絡(luò)營銷,中國證券監(jiān)督管理委員會(huì)待遇如何,國家衛(wèi)生健康委員會(huì)官網(wǎng)網(wǎng)站強(qiáng)化學(xué)習(xí)算法總結(jié) 2 4.動(dòng)態(tài)規(guī)劃待解決問題分解成若干個(gè)子問題，先求解子問題，然后得到目標(biāo)問題的解需要知道整個(gè)狀態(tài)轉(zhuǎn)移函數(shù)和價(jià)值函數(shù)，狀態(tài)空間離散且有限策略迭代： 策略評估:貝爾曼期望方程來得到一個(gè)策略的 V ( s ) V(s…

強(qiáng)化學(xué)習(xí)算法總結(jié) 2

4.動(dòng)態(tài)規(guī)劃

待解決問題分解成若干個(gè)子問題，先求解子問題，然后得到目標(biāo)問題的解

需要知道整個(gè)狀態(tài)轉(zhuǎn)移函數(shù)和價(jià)值函數(shù)，狀態(tài)空間離散且有限

策略迭代：
- 策略評估:貝爾曼期望方程來得到一個(gè)策略的 $V (s)$
- 策略提升:
價(jià)值迭代

4.1 策略迭代算法

策略評估

$\sum_a \pi(a|s)Q(s,a) = \sum_a \pi(a|s)(r(a,s)+ \gamma\sum_s P(s'|s,a)V^\pi(S'))$

知道狀態(tài)轉(zhuǎn)移函數(shù)和未來狀態(tài)價(jià)值就可以估計(jì)當(dāng)前的狀態(tài)：我們只需要求解 $V (s)$

這里就是利用貝爾曼方程，來不斷地更新 $V (s)$ ,
$V(S)^{k+1} = \sum_a \pi(a|s)Q(s,a) = \sum_a \pi(a|s)(r(a,s)+ \gamma\sum_s P(s'|s,a)V^k(S'))$

策略提升

只要當(dāng)前狀態(tài)下的策略的得到的狀態(tài)動(dòng)作函數(shù)比 $V (S)$ 高一些
$\pi'(s) = argmax_aQ^\pi(s,a)$
策略迭代

$\pi^0 策略評估 V\pi_0（S）策略提升 \pi^1$

代碼
- 策略評估

$\ \max \ >\theta \ do: \\ \ max = 0 \\ \ for \ s \ in \ range(S):\\ \ v = V(s)（所有Q(s,a）求和)\\ \ V(S) = (bellman fuction)\\ \ max = max(max,V(s) - v)$

? * 策略提升

$for\ s\ in\ S：\\ \pi (s) = argmax(Q(s,a))$

4.2 價(jià)值迭代算法

$V^{k+1}(s) = max_a\{ r(s,a)+\gamma\sum_sPV^k\}$

可以理解為只執(zhí)行一輪的策略迭代算法

5 時(shí)序差分算法

在數(shù)據(jù)分布未知的情況下來對模型進(jìn)行更新，通過智能體與環(huán)境的交互進(jìn)行學(xué)習(xí)。無模型的強(qiáng)化學(xué)習(xí)。

在線強(qiáng)化學(xué)習(xí)：使用當(dāng)前策略下采樣得到的數(shù)據(jù)進(jìn)行學(xué)習(xí)
離線強(qiáng)化學(xué)習(xí)：使用經(jīng)驗(yàn)回訪池

5.1 時(shí)序差分

$V(S_t) = V(s_t) +\alpha[G_t - V(s_t)]$

$G_t$ 表示整個(gè)序列采集結(jié)束之后，得到的回報(bào)。而很多時(shí)候我們是沒有辦法
$V(s_t) += \alpha[r_t + \gamma V(s_{t+1}) -V(s_t) ]$
用時(shí)序差分法估計(jì)到了狀態(tài)價(jià)值函數(shù) $V (s)$

5.2 SARSA

$\alpha[r(s,a) + \gamma Q(s,a) - Q(s,a)]$

$$
\begin{equation}
\pi(a|s)=\left{
\begin{aligned}
argmax(Q(s,a))& \ & if \ prob < \ 1- \epsilon \
random & \ & \

\end{aligned}
\right.
\end{equation}
$$

5.3 多步Sarsa

MC方法是無偏估計(jì)但是方差比較大

TD 是有偏估計(jì)，因?yàn)槊恳粋€(gè)對下一個(gè)狀態(tài)的價(jià)值都是估計(jì)的
$Q(s_t,a_t)+= \alpha[ r_t + \gamma Q(s_{t+1}) + \gamma^2 Q(s_{t+2})+ \gamma^3 Q(s_{t+3})... -Q(s,a) ]$
代碼實(shí)現(xiàn)上，是前幾次不執(zhí)行只是進(jìn)行數(shù)據(jù)的收集，第n次開始進(jìn)行多步Sarsa

5.4 Q-learning

$\alpha[r(s,a) + \gamma max_aQ(s,a) - Q(s,a)]$

Q-learning的時(shí)序差分算法在算下一個(gè)狀態(tài)的Q的時(shí)候會(huì)取最大的那個(gè)

Sarsa會(huì)先 $\epsilon -greedy$ 選擇s，a然后計(jì)算TD_error,然后估計(jì)Q(s’,a’)(比如放在環(huán)境中跑一下）

Q-learning next_s和a之后，會(huì)找到最大的Q(s’,a’),不依賴于 $\epsilon -greedy$ 的a

在線策略算法和離線策略算法

在線策略算法：行為策略（采樣數(shù)據(jù)的策略）和目標(biāo)策略（用于更新的策略）是同一個(gè)策略

離線策略算法：行為策略和目標(biāo)策略并不是同一個(gè)策略

7 DQN算法

Q網(wǎng)絡(luò)的損失函數(shù)
$w^* = argmin_w \frac{1}{2N}\sum_{i=1}^N[r_i+\gamma max_i Q_w(s'_i,a') - Q_w(s_i,a_i)]$

經(jīng)驗(yàn)回放

制作一個(gè)數(shù)據(jù)回放緩沖區(qū)，每次環(huán)境中得到的<s,a,r,s’>都進(jìn)行存放
目標(biāo)網(wǎng)絡(luò)

? 采用TD_error作為我們的誤差，但是包含著網(wǎng)絡(luò)的輸出，所以在更新網(wǎng)絡(luò)參數(shù)的時(shí)候，目標(biāo)也在不斷地更新

? 因?yàn)閮?yōu)化目標(biāo)是讓
$\rightarrow r+\gamma max Q(s'+a')$
?

查看全文

http://www.risenshineclean.com/news/11556.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网