最佳化理論(Optimization Theory)用來尋找數學問題中最優解。這些問題通常是指在某些條件下,尋找能使特定目標函數達到最大或最小值的解。最佳化理論讓算法能夠高效學習和調整模型的參數。

最佳化問題

一個典型的最佳化問題可以表述為:

$$ \min_{x \in \mathcal{X}} \ f(x) $$

$$ \max_{x \in \mathcal{X}} \ f(x) $$

其中:


類型

  1. 無約束最佳化

    在無約束最佳化中,我們只需找到使目標函數達到最優值的參數 xxx,不需要考慮額外的條件或限制。

    例子:最小化損失函數$f(x)$,這在機器學習中的模型訓練過程中很常見。

    $$ \min_{x \in \mathbb{R}^n} \ f(x) $$

  2. 有約束最佳化

    有約束最佳化會在參數 $x$ 上施加一組額外的條件,這些約束可以是等式或不等式的形式。

    例子:Lagrange 乘數法常用來解決有約束的最佳化問題。

    $$ \min_{x \in \mathbb{R}^n} \ f(x) \quad \text{subject to} \ g(x) = 0 $$


梯度下降法(Gradient Descent)

在機器學習中,梯度下降法是一種常用的無約束最佳化算法,用來尋找目標函數的最小值。它基於一個簡單的觀察:目標函數的梯度(導數)指向函數值增加最快的方向,因此我們沿著相反方向移動,以逐步逼近最小值。

梯度下降的公式

對於每次迭代,參數 $x$ 根據梯度更新:

$$ x := x - \eta \nabla f(x) $$