新聞網(wǎng)站怎么備案網(wǎng)站建設(shè)詳細(xì)方案
前提:基于TD 的方法多少都會(huì)有高估問(wèn)題,即Q值偏大。原因兩個(gè):一、TD目標(biāo)是真實(shí)動(dòng)作的高估。 二:自舉法高估。
DDPG 屬于AC方法:異策略,適合連續(xù)動(dòng)作空間,因?yàn)?strong>他的策略網(wǎng)絡(luò)直接輸出的動(dòng)作,是向量就表示執(zhí)行的動(dòng)作。
而之前的PPO是輸出動(dòng)作的均值和方差,DQN 等輸出每個(gè)動(dòng)作的概率
################## ### ###################相當(dāng)于 TDerror 的兩部分用兩個(gè)網(wǎng)絡(luò)預(yù)測(cè) ###################### ########
TD3參考
TD3 相比DDPG 改進(jìn)其實(shí)就是 針對(duì)不穩(wěn)定、高估問(wèn)題,加了兩個(gè)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。即targetNet 和 mainNet ,和之前DQN的做法很像。
針對(duì) Critic網(wǎng)絡(luò)預(yù)測(cè)Q 偏大問(wèn)題,設(shè)置兩個(gè)Critic 同時(shí)估計(jì)Q ,然后選擇小的那一個(gè)Q再做error