5b. Reinforcement Training - Obstacle Avoidance 強化式學習法 (避開障礙,避免撞牆)

學習目標 :

高階的AI 學習法 - 強化式學習法。

建基於活動5a,加了眼睛(相機),是否可以減少撞到牆呢?

學習內容 :

  • 透過正確設定奬勵(和懲罰)機 制,機械人可以自學得到智力。 
  • 實驗的目標是要訓練機械人可以在四方形的埸地內不停地走動。
  • 加了眼睛(相機),是否可以減少撞到牆呢?

所需準備 :

 
材料: Parameter 參數 :
“使用Demo參數 “Obstacle Avoidance”
Racing Circuit 場地大限並無限制

導入 Demo Parameter 「Obstacle Avoidance」 :

在工具欄中選擇「parameters」再按「load demo parameters」 。

在「Reinforcement Learning」中選擇「Obstacle Avoidance」

 

比起「Blocked vs Motio」 , dashboard 會出現相機及 RGB Pixel

1. 強化學習 :

啟用「learning」及「exploration」 , 然後按「self-drive」

1b. 觀察學習 :

  • 跟 「Blocked vs Motion」有什麼變化 ?
  • ⇒ 轉向更多 , 因為轉向能取得 80分
  • ⇒ 更少撞牆 , 因為加入了鏡頭分析
  • ⇒ Level 的平均值應該更高
  • 還會撞牆嗎 ? 
  • 機械人的速度和場地大小會影響學習嗎 ?

總結 :

  • 強化式學習法(機械人自學)的原理是透過奬勵和懲罰去鼓勵機械人去做對某些動作。
  • 機械人會去改變它的行為從而獲取最高的累積的平均獎勵分數。