氣球追踪 | BALLOON TRACKING
這是強化學習的另一個例子。 透過改變獎勵的類型以及在場地放置新元素,我們可以成功讓機械人採取完全不同的行為。
導入「Reinforcement Learning - Balloon Tracking (green)」 :
或自行選擇所需的參數 :
- 在 AI tab :
- 「learning type」選擇 「reinforemcent learning」, 「algorithm」選擇「deep Q-learning」 ,
在「hidden layers」輸入「100 100 50」 並且勾選「experience buffer」
- 在 Sensor tab :
- 先按「speed 」再選「blocked/moveing」
- 選擇「camera」 (例如 32x24) 並選取「camera ... composition」的「White/Black-Yellow/Blue-Red/Green」
- 在 Reward tab :
- 選擇 「image and blocked」
測試階段 :
將綠色氣球擺放至場場上 (你可以使用其他顏色 , 但你需更改顏色檢測的設置 , 在這種情況下 , 你需更在「Reward」視窗中改變「color setting」。控制顏色的主要是「hue」 , 你可透過拖拉 max.hue 及 min.hue 改變顏色 !
- 把氣球放到機器人的前方(朝鏡頭)從而檢查顏色的設置是否正確 ; 機器點(robot;dots)應該會出現在氣球的圖像上。假如你使用的是綠色氣球 , 那在 dashboard 相機上氣球表面應該會呈現綠色 robot dots。
- 在「Reward」中,改變hue(色調)和luminance(亮度) 使設置的氣球顏色能跟偵測中的氣球顏色一樣。
- 啟動機器人。在一段時間後(大約20分鐘) , 機器人會開始追逐氣球。( AlphAI 會推著球移動)
機器人嘗試最大化相機上氣球顏色的像素數目 : 因此它在學習時會盡可能靠近氣球 , 但當它靠近時 , 它會觸碰到氣球 , 並且會不斷重覆這個過程。
學到的概念 :
在強化學習的過程中,為了給予機械人一個特定的行為,給予的獎勵必須經過深思熟慮; 以便它僅會在機械人做出相應行動時才會給予獎勵。