機器學習的三大分類
這是 iPAS 考試最基礎也最常考的概念。
監督式學習(Supervised Learning)
用已標註的資料訓練模型。就像有老師改作業,模型從正確答案中學習。
- 分類(Classification):預測類別,例如郵件是否為垃圾信
- 迴歸(Regression):預測數值,例如房價預測
常見演算法:線性迴歸、邏輯迴歸、決策樹、隨機森林、SVM、KNN
非監督式學習(Unsupervised Learning)
用未標註的資料,讓模型自己找出資料中的結構。
- 分群(Clustering):將相似資料分組,例如客戶分群
- 降維(Dimensionality Reduction):減少特徵數量,例如 PCA
常見演算法:K-means、DBSCAN、PCA、t-SNE
強化學習(Reinforcement Learning)
透過與環境互動,根據獎懲回饋學習最佳策略。像訓練寵物:做對了給獎勵,做錯了不給。
應用:遊戲 AI、機器人控制、自動駕駛
模型評估指標
這是中級考試的重點,但初級也會考基本概念。
分類問題
| 指標 | 意義 | 公式 |
|---|---|---|
| Accuracy | 整體正確率 | (TP+TN) / 全部 |
| Precision | 預測為正的準確度 | TP / (TP+FP) |
| Recall | 實際為正的召回率 | TP / (TP+FN) |
| F1-Score | Precision 和 Recall 的調和平均 | 2PR / (P+R) |
考試技巧:記住 Precision 關注「查準」,Recall 關注「查全」。醫療診斷重視 Recall(不能漏掉病人),垃圾信過濾重視 Precision(不能誤殺正常信)。
迴歸問題
- MAE:平均絕對誤差,直觀易懂
- MSE / RMSE:均方誤差,對大誤差更敏感
- R²:決定係數,越接近 1 越好
過擬合與欠擬合
過擬合(Overfitting)
模型在訓練資料上表現很好,但在新資料上表現差。就像背考古題背得滾瓜爛熟,但換個題目就不會了。
解決方法:增加資料量、正則化、Dropout、Early Stopping、交叉驗證
欠擬合(Underfitting)
模型太簡單,連訓練資料都無法學好。
解決方法:增加模型複雜度、增加特徵、延長訓練時間
考古題常見陷阱
- 混淆監督式和非監督式:看到「標註」關鍵字就是監督式
- Precision vs Recall:記住 Precision 是「查準」,Recall 是「查全」
- 過擬合的特徵:訓練準確率高、測試準確率低 = 過擬合