Day 11 - 前饋式神經網路過適化問題 | Notion

什麼是過適化？⁽⁽ଘ( ˙꒳˙ )ଓ⁾⁾

過適化的核心問題在於模型過度擬合訓練數據，使其對訓練集中的噪聲或不具普遍性的特徵過於敏感。當模型過於複雜時，它會過度學習訓練數據中的每一個細節，導致在新的數據上無法進行有效的泛化。

數學上，模型的訓練誤差和測試誤差可以表示為損失函數 L(θ)$L(\theta)$的兩個版本：

訓練損失 $L_{\text{train}}(\theta)$ : 表示模型在訓練數據上的誤差。
測試損失 $L_{\text{test}}(\theta)$ : 表示模型在未見過的測試數據上的誤差。

過適化的特徵是訓練損失持續下降，但測試損失在某個點之後開始上升。這意味著模型已經過度擬合訓練數據，而無法對測試數據進行有效的預測。

過適化的數學解釋

過適化可以從模型的**偏差-變異數權衡（Bias-Variance Tradeoff）**的角度來理解。

偏差（Bias）：模型的簡單性導致無法完全擬合數據的趨勢，即模型對訓練數據的過於簡單的近似，會導致高偏差。
變異數（Variance）：模型的複雜性使其對訓練數據中的小波動和噪聲過於敏感，導致高變異數。

過適化往往出現在高變異數的模型中，因為這些模型對訓練數據中的每一個特徵過度擬合，從而無法很好地應用到新的數據。偏差-變異數權衡表示我們需要在模型的複雜度和泛化能力之間取得平衡。

過適化的原因

模型過於複雜：當模型的參數數量過多時，特別是神經網路中的層數和神經元數量較多時，容易導致過適化。
訓練數據不足：模型如果在較小的數據集上訓練，其對訓練數據的擬合程度會過強，導致泛化能力下降。
訓練時間過長：過度訓練模型會導致過適化，因為模型可能會開始學習訓練數據中的噪聲。

如何避免過適化？