哈爾濱住房和城鄉(xiāng)建設(shè)廳官方網(wǎng)站如何軟件網(wǎng)站優(yōu)化公司
1 強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)
強(qiáng)化學(xué)習(xí)過(guò)程:?先環(huán)境(Env)
會(huì)給智能體(Agent)
?個(gè)狀態(tài)(State)
,智能體接收到環(huán)境給的觀測(cè)值之后會(huì)做出?個(gè)動(dòng)作(Action)
,環(huán)境接收到智能體給的動(dòng)作之后會(huì)做出?系列的反應(yīng),例如對(duì)這個(gè)動(dòng)作給予?個(gè)獎(jiǎng)勵(lì)(Reward)
,以及給出?個(gè)新的狀態(tài)S
。這是?個(gè)反復(fù)與環(huán)境進(jìn)?交互,不斷試錯(cuò)?不斷進(jìn)步的過(guò)程。
智能體Agent
:執(zhí)行任務(wù)的角色。
環(huán)境Env
:任務(wù)的環(huán)境。
狀態(tài)State
:角色和環(huán)境所處的狀態(tài)。
動(dòng)作Action
:角色在當(dāng)前狀態(tài)下做出的動(dòng)作。
獎(jiǎng)勵(lì)Reward
:環(huán)境根據(jù)角色的動(dòng)作給出的反饋。
回報(bào)Return
:未來(lái)獎(jiǎng)勵(lì)Reward的加權(quán)累計(jì)。
隨機(jī)策略函數(shù)
π(a∣s)\pi(a|s)π(a∣s):在狀態(tài)S下在動(dòng)作空間隨機(jī)抽樣給出動(dòng)作a。
動(dòng)作價(jià)值函數(shù)
Qπ(s∣a)Q_\pi(s|a)Qπ?(s∣a):給當(dāng)前狀態(tài)S下的動(dòng)作打分,使用Q?(s∣a)Q_*(s|a)Q??(s∣a)得出分?jǐn)?shù)最高的動(dòng)作a。
強(qiáng)化學(xué)習(xí)分類:
1.價(jià)值學(xué)習(xí)Q*(s|a)
:給狀態(tài)S下各種動(dòng)作打分,選擇價(jià)值最大的最優(yōu)動(dòng)作a?!?code>Deep Q Network(DQN) 與 Q Learning 與 SARSA
2.策略學(xué)習(xí)π(a|s)
:在狀態(tài)S隨機(jī)概率抽樣給出a?!?code>策略網(wǎng)絡(luò)Policy Network
3.價(jià)值學(xué)習(xí)+策略學(xué)習(xí)
:Actor-Critic method 與 Advantage Actor-Critic——AC算法 與 A2C算法