中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

國外網(wǎng)站為什么不用備案軟件推廣接單平臺

國外網(wǎng)站為什么不用備案,軟件推廣接單平臺,wordpress仿站實(shí)戰(zhàn)教程,怎么用wordpress建立自己的網(wǎng)站嗎2.策略梯度方法 目標(biāo)是使策略 不斷更新,回報更高。 計算每一個軌跡的回報,和對應(yīng)的概率 目標(biāo)是使回報高的軌跡概率應(yīng)該高。這樣整個策略的期望回報也會高。 什么是策略期望回報? 就是用這個策略跑了若干個軌跡,得到回報&#x…

2.策略梯度方法

目標(biāo)是使策略 不斷更新,回報更高。

計算每一個軌跡的回報,和對應(yīng)的概率
目標(biāo)是使回報高的軌跡概率應(yīng)該高。這樣整個策略的期望回報也會高。

什么是策略期望回報?
就是用這個策略跑了若干個軌跡,得到回報,然后求平均

2.1 策略梯度的主要原理

![外鏈圖片轉(zhuǎn)存失敗,源

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

    # 1. 采樣一個完整的 episodelog_probs = []  # 存儲每個 (s_t, a_t) 的 log π(a_t|s_t)rewards = []    # 存儲每個時間步的獎勵 r_twhile not done:action_probs = policy_net(state_tensor)  # π(a|s)action = sample_action(action_probs)     # a_t ~ π(a|s)log_prob = torch.log(action_probs[action])  # log π(a_t|s_t)log_probs.append(log_prob)next_state, reward, done = env.step(action)rewards.append(reward)# 2. 計算每個時間步的折扣回報 G_tdiscounted_rewards = compute_discounted_rewards(rewards, gamma=0.99)# 3. 計算策略梯度損失policy_loss = []for log_prob, G_t in zip(log_probs, discounted_rewards):policy_loss.append(-log_prob * G_t)  # 負(fù)號因?yàn)?PyTorch 默認(rèn)做梯度下降# 4. 反向傳播total_loss = torch.stack(policy_loss).sum()  # 求和所有時間步的損失optimizer.zero_grad()total_loss.backward()  # 計算梯度 ?θ J(θ)optimizer.step()       # 更新 θ ← θ + α ?θ J(θ)

2.2 Reinforce 算法,也稱為蒙特卡洛策略梯度,是一種策略梯度算法,它使用來自整個 episode 的估計回報來更新策略參數(shù)

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as Fclass PolicyNetwork(nn.Module):"""策略網(wǎng)絡(luò),輸入狀態(tài),輸出動作概率"""def __init__(self, state_dim, action_dim, hidden_dim=64):super(PolicyNetwork, self).__init__()self.fc1 = nn.Linear(state_dim, hidden_dim)self.fc2 = nn.Linear(hidden_dim, action_dim)def forward(self, x):x = F.relu(self.fc1(x))x = F.softmax(self.fc2(x), dim=-1)return xdef reinforce(env, policy_net, optimizer, num_episodes=1000, gamma=0.99):"""REINFORCE算法實(shí)現(xiàn)參數(shù):env: 環(huán)境policy_net: 策略網(wǎng)絡(luò)optimizer: 優(yōu)化器num_episodes: 訓(xùn)練episode數(shù)量gamma: 折扣因子返回:每個episode的獎勵列表"""episode_rewards = []for episode in range(num_episodes):state = env.reset()log_probs = []rewards = []# 采樣一個完整的episodedone = Falsewhile not done:# 將狀態(tài)轉(zhuǎn)換為tensorstate_tensor = torch.FloatTensor(state).unsqueeze(0)  # shape: (1, state_dim)# 通過策略網(wǎng)絡(luò)獲取動作概率action_probs = policy_net(state_tensor)  # shape: (1, action_dim)# 從概率分布中采樣一個動作action = torch.multinomial(action_probs, 1).item()# 也可以# dist = torch.distributions.Categorical(action_probs)# action = dist.sample()  # 標(biāo)量值# 計算動作的log概率log_prob = torch.log(action_probs.squeeze(0)[action])  # shape: scalar# 執(zhí)行動作next_state, reward, done, _ = env.step(action)# 存儲log概率和獎勵log_probs.append(log_prob)rewards.append(reward)# 更新狀態(tài)state = next_state# 計算episode的折扣回報discounted_rewards = []R = 0for r in reversed(rewards):R = r + gamma * Rdiscounted_rewards.insert(0, R)# 標(biāo)準(zhǔn)化折扣回報(減少方差)discounted_rewards = torch.FloatTensor(discounted_rewards)discounted_rewards = (discounted_rewards - discounted_rewards.mean()) / (discounted_rewards.std() + 1e-9)# 計算策略梯度損失policy_loss = []for log_prob, R in zip(log_probs, discounted_rewards):policy_loss.append(-log_prob * R)  # 負(fù)號因?yàn)槲覀円畲蠡貓?/span># 反向傳播optimizer.zero_grad()policy_loss = torch.stack(policy_loss).sum()  # shape: scalarpolicy_loss.backward()optimizer.step()# 記錄總獎勵episode_rewards.append(sum(rewards))return episode_rewards

開始以為policy_loss 計算的是策略梯度,感覺很不合理,其實(shí)不是的,差了一個求導(dǎo)呢。

在這里插入圖片描述

在這里插入圖片描述

總結(jié),policy_loss 的梯度 和 目標(biāo)函數(shù)的梯度符號相反。
兩者的梯度 符號相反。因此最大化目標(biāo)函數(shù)等于最小化policy_loss

http://www.risenshineclean.com/news/46600.html

相關(guān)文章:

  • 做網(wǎng)站應(yīng)該注意哪些方面臨沂seo推廣外包
  • 網(wǎng)站首頁被掛黑鏈百度網(wǎng)盤會員
  • 如何做好公司網(wǎng)站接推廣app任務(wù)的平臺
  • 學(xué)完ssm可以做哪些網(wǎng)站搜索引擎優(yōu)化的內(nèi)部優(yōu)化
  • wordpress圖片網(wǎng)站網(wǎng)站要怎么創(chuàng)建
  • 成都 商業(yè)網(wǎng)站建設(shè)app網(wǎng)絡(luò)推廣公司
  • 網(wǎng)站建設(shè) 樂視百度軟件中心下載安裝
  • 網(wǎng)站優(yōu)化推廣怎么做強(qiáng)強(qiáng)seo博客
  • 網(wǎng)站群系統(tǒng)站長工具網(wǎng)站排名
  • 湖州網(wǎng)站制作網(wǎng)站快速排名推廣軟件
  • 24小時二手表網(wǎng)站免費(fèi)友情鏈接平臺
  • thinkphp做網(wǎng)站有什么好處seo網(wǎng)絡(luò)優(yōu)化平臺
  • 門戶網(wǎng)站是指網(wǎng)絡(luò)營銷方式有哪些
  • 南京h5網(wǎng)站開發(fā)seo根據(jù)什么具體優(yōu)化
  • 怎么查網(wǎng)站備案信息查詢運(yùn)營是做什么的
  • 簡述企業(yè)網(wǎng)站建設(shè)的流程百度推廣培訓(xùn)班
  • 網(wǎng)站優(yōu)化怎么做分錄西安seo優(yōu)化系統(tǒng)
  • 高端網(wǎng)站制作哪家專業(yè)怎樣免費(fèi)推廣自己的網(wǎng)站
  • 簡單的個人網(wǎng)站100種宣傳方式
  • 網(wǎng)站建設(shè)模板的seo快速排名源碼
  • 三門峽建設(shè)網(wǎng)站哪家好深圳網(wǎng)絡(luò)推廣
  • 注冊公司后才可以做獨(dú)立網(wǎng)站嗎個人主頁網(wǎng)頁設(shè)計
  • 中國建設(shè)部官方網(wǎng)站魯班獎網(wǎng)絡(luò)推廣的方法包括
  • 四川城鄉(xiāng)建設(shè)委員會的網(wǎng)站深圳百度競價托管公司
  • 做網(wǎng)站的空間汽車行業(yè)網(wǎng)站建設(shè)
  • 大型o2o網(wǎng)站開發(fā)時間怎么建造自己的網(wǎng)站
  • 開網(wǎng)站買自己做的東西什么是淘寶seo
  • 河南建設(shè)廳八大員查詢網(wǎng)站搜索引擎優(yōu)化關(guān)鍵字
  • 紅鵲豆網(wǎng)絡(luò)網(wǎng)站站建設(shè)營銷思路八大要點(diǎn)
  • 怎樣給網(wǎng)站或者商品做推廣抖音seo軟件工具