強化學習的基礎教程（共66頁pdf下載）

ID:295255 · 發(fā)表于 2018-3-21 21:49

強化學習的基礎教程

在DP和RL中，控制器（agent，決策者）與過程（環(huán)境）進行交互，
通過3種信號：
在每個離散時間步，控制器接收來自過程的狀態(tài)測量值，并采取一個動作，使得過程遷移到一個新狀態(tài)，并產生一個獎賞，其中獎賞值用來評估狀態(tài)遷移的質量。

控制器發(fā)出的行為指令是受控于策略的（從狀態(tài)到動作的函數(shù)）。
過程的行為是由它的動態(tài)性來描述的，對過程采取動作（由控制器發(fā)出的指令）后，狀態(tài)如何變化。