強化學習的基礎教程
0.jpg (38.93 KB, 下載次數(shù): 80)
下載附件
2018-3-22 03:30 上傳
0.jpg (41.97 KB, 下載次數(shù): 67)
下載附件
2018-3-22 03:30 上傳
0.jpg (24.48 KB, 下載次數(shù): 63)
下載附件
2018-3-22 03:30 上傳
0.jpg (44.59 KB, 下載次數(shù): 67)
下載附件
2018-3-22 03:30 上傳
在DP和RL中,控制器(agent,決策者)與過程(環(huán)境)進行交互,
通過3種信號:
在每個離散時間步,控制器接收來自過程的狀態(tài)測量值,并采取一個動作,使得過程遷移到一個新狀態(tài),并產生一個獎賞,其中獎賞值用來評估狀態(tài)遷移的質量。
控制器發(fā)出的行為指令是受控于策略的(從狀態(tài)到動作的函數(shù))。
過程的行為是由它的動態(tài)性來描述的,對過程采取動作(由控制器發(fā)出的指令)后,狀態(tài)如何變化。
0.jpg (15.14 KB, 下載次數(shù): 64)
下載附件
2018-3-22 03:31 上傳
0.jpg (38 KB, 下載次數(shù): 67)
下載附件
2018-3-22 03:31 上傳
0.jpg (22.57 KB, 下載次數(shù): 76)
下載附件
2018-3-22 03:32 上傳
0.jpg (45.42 KB, 下載次數(shù): 74)
下載附件
2018-3-22 03:32 上傳
完整的pdf格式文檔51黑下載地址(共66頁):
強化學習.pdf
(4.38 MB, 下載次數(shù): 28)
2018-3-21 21:49 上傳
點擊文件名下載附件
下載積分: 黑幣 -5
|