氣球追踪 | BALLOON TRACKING

這是強化學習的另一個例子。 透過改變獎勵的類型以及在場地放置新元素,我們可以成功讓機械人採取完全不同的行為。

導入「Reinforcement Learning - Balloon Tracking (green)」 :

或自行選擇所需的參數 :

  • 在 AI tab :

- 「learning type」選擇 「reinforemcent learning」, 「algorithm」選擇「deep Q-learning」 ,

  在「hidden layers」輸入「100 100 50」 並且勾選「experience buffer」

  • 在 Sensor tab :

- 先按「speed 」再選「blocked/moveing」

- 選擇「camera」 (例如 32x24) 並選取「camera ... composition」的「White/Black-Yellow/Blue-Red/Green」

  • 在 Reward tab :

-  選擇 「image and blocked」

測試階段 :

將綠色氣球擺放至場場上 (你可以使用其他顏色 , 但你需更改顏色檢測的設置 , 在這種情況下 , 你需更在「Reward」視窗中改變「color setting」。控制顏色的主要是「hue」 , 你可透過拖拉 max.hue 及 min.hue 改變顏色 !

  • 把氣球放到機器人的前方(朝鏡頭)從而檢查顏色的設置是否正確 ; 機器點(robot;dots)應該會出現在氣球的圖像上。假如你使用的是綠色氣球 , 那在 dashboard 相機上氣球表面應該會呈現綠色 robot dots。

 

  • 在「Reward」中,改變hue(色調)和luminance(亮度) 使設置的氣球顏色能跟偵測中的氣球顏色一樣。
  • 啟動機器人。在一段時間後(大約20分鐘) , 機器人會開始追逐氣球。( AlphAI 會推著球移動)

機器人嘗試最大化相機上氣球顏色的像素數目 : 因此它在學習時會盡可能靠近氣球 , 但當它靠近時 , 它會觸碰到氣球 , 並且會不斷重覆這個過程。

學到的概念 :

在強化學習的過程中,為了給予機械人一個特定的行為,給予的獎勵必須經過深思熟慮; 以便它僅會在機械人做出相應行動時才會給予獎勵。

影片示範 :