過擬合（Overfitting）是什麼？原因、判斷方式與解決方法

一句話解釋

過擬合（Overfitting）是指模型在訓練資料上表現很好，但在新的、沒看過的資料上表現很差——它「背答案」而不是「學規則」。

想像一個學生準備考試：

模型也是一樣。過擬合的模型把訓練資料中的「雜訊」和「巧合」都當成規則學了起來，導致碰到新資料就失靈。

最明顯的特徵：

如果訓練準確率 98% 但測試準確率只有 65%，幾乎可以確定是過擬合。

模型的參數遠多於資料量，它有足夠的「容量」去記住每一筆訓練資料，而不是學通用規則。

資料量不足以代表真實世界的多樣性，模型只學到了訓練集中的特殊模式。

模型反覆看同一批資料太多次，開始記住個別樣本的特徵。

資料本身不乾淨，模型把雜訊也當成有意義的模式學了進去。

最直接的方法。資料越多，模型越不容易死記。如果無法取得更多真實資料，可以用資料增強（Data Augmentation）——對圖片做旋轉、翻轉、裁切等變換來「製造」更多訓練樣本。

在損失函數中加入懲罰項，限制模型的複雜度：

訓練時隨機「關掉」一部分神經元（通常 20%～50%）。這迫使模型不能依賴某些特定神經元，而是要學到更通用的特徵。

在訓練過程中持續監控驗證集的表現。當驗證集的損失不再下降（甚至開始上升）時，就停止訓練——即使訓練集的表現還在進步。

把資料分成多份，輪流當訓練集和驗證集，更可靠地評估模型的泛化能力。常用的是 K-Fold 交叉驗證（通常 K=5 或 10）。

如果模型太複雜，直接用更簡單的模型。不一定要用深度學習，有時候決策樹或邏輯迴歸就夠了。

跟過擬合相反，欠擬合是模型太簡單，連訓練資料都學不好。