The Importance of data quality

在 Data Science 上 , Data Acquisition System 是很重要的一環 。

在 AlphAI (AI)上 , 它用於蒐集、監測和記錄各種來自現實世界中的訊號與數據。

這些訊號來自AlphAI 的 Sensor (車輪、相機、Ultrasonic Sensor 等),而DAQ的目標是將這些訊號轉換為數位形式,

以便進行分析、處理和記錄從來訓練 AI Model 並執行動作 (label action)。

套用在 AlphAI 上 :

Sensor 所得到的 data 以及 label action 都是在 AI學習中需記錄的 variable (變數)

在 AlphAI 的 Robo Race 中 , Input Sensor 是相機 ;Label Action 是 Output 及 Action。

在訓練過程中 , AlphAI 會將接收到的影像轉變成 data 並給予它正確的 label action ,

從而提高 data 的準確性 ,  (1) 這組 image input 及 label action 為 空礦 + 向前行是有效的訓練

(2) 這組 image input 是左前方紅色牆 label action 為向左前行是錯誤無效的訓練

==> 錯誤的 Data 會影響 AI model 的學習並讓它變得有 Bias

紅色箭嘴(1)為剛才錯誤的 label action , 黑色(2)為正確的 label action ;

(3) 為執行錯誤的action後需加入的label action

Quality of Data :

  • 假如 label action 錯誤 🡪 錯誤的學習
  • label action 是否準確

Completeness (完整性) :

  • 不夠 data / labels
  • 不夠訓練情景 , 如(3)沒遇過

訓練 AlphAI 的步驟 :

  1. 數據收集 ==> Input 相片、label action
  2. 訓練 AlphAI 「正確」地行駛
  3. 進行 Self-Drive 驗證 Al Model 的準確性並再加入/修改 training data