The Importance of data quality
在 Data Science 上 , Data Acquisition System 是很重要的一環 。
在 AlphAI (AI)上 , 它用於蒐集、監測和記錄各種來自現實世界中的訊號與數據。
這些訊號來自AlphAI 的 Sensor (車輪、相機、Ultrasonic Sensor 等),而DAQ的目標是將這些訊號轉換為數位形式,
以便進行分析、處理和記錄從來訓練 AI Model 並執行動作 (label action)。
套用在 AlphAI 上 :

Sensor 所得到的 data 以及 label action 都是在 AI學習中需記錄的 variable (變數)

在 AlphAI 的 Robo Race 中 , Input Sensor 是相機 ;Label Action 是 Output 及 Action。
在訓練過程中 , AlphAI 會將接收到的影像轉變成 data 並給予它正確的 label action ,
從而提高 data 的準確性 , (1) 這組 image input 及 label action 為 空礦 + 向前行是有效的訓練
(2) 這組 image input 是左前方紅色牆 label action 為向左前行是錯誤無效的訓練
==> 錯誤的 Data 會影響 AI model 的學習並讓它變得有 Bias

紅色箭嘴(1)為剛才錯誤的 label action , 黑色(2)為正確的 label action ;
(3) 為執行錯誤的action後需加入的label action
Quality of Data :
- 假如 label action 錯誤 🡪 錯誤的學習
- label action 是否準確
Completeness (完整性) :
- 不夠 data / labels
- 不夠訓練情景 , 如(3)沒遇過
假如出現錯誤的學習 :
- 可以使用「forget last action」刪除錯誤的data
- 加入更多的有效學習去提高 data 的 quality 及 quantity
訓練 AlphAI 的步驟 :
- 數據收集 ==> Input 相片、label action
- 訓練 AlphAI 「正確」地行駛
- 進行 Self-Drive 驗證 Al Model 的準確性並再加入/修改 training data