什麼是過適化?⁽⁽ଘ( ˙꒳˙ )ଓ⁾⁾

過適化的核心問題在於模型過度擬合訓練數據,使其對訓練集中的噪聲或不具普遍性的特徵過於敏感。當模型過於複雜時,它會過度學習訓練數據中的每一個細節,導致在新的數據上無法進行有效的泛化。

數學上,模型的訓練誤差和測試誤差可以表示為損失函數 L(θ)$L(\theta)$的兩個版本:

過適化的特徵是訓練損失持續下降,但測試損失在某個點之後開始上升。這意味著模型已經過度擬合訓練數據,而無法對測試數據進行有效的預測。


過適化的數學解釋

過適化可以從模型的**偏差-變異數權衡(Bias-Variance Tradeoff)**的角度來理解。

過適化往往出現在高變異數的模型中,因為這些模型對訓練數據中的每一個特徵過度擬合,從而無法很好地應用到新的數據。偏差-變異數權衡表示我們需要在模型的複雜度和泛化能力之間取得平衡。


過適化的原因

  1. 模型過於複雜:當模型的參數數量過多時,特別是神經網路中的層數和神經元數量較多時,容易導致過適化。
  2. 訓練數據不足:模型如果在較小的數據集上訓練,其對訓練數據的擬合程度會過強,導致泛化能力下降。
  3. 訓練時間過長:過度訓練模型會導致過適化,因為模型可能會開始學習訓練數據中的噪聲。

image.png


如何避免過適化?