描述性統計(Descriptive Statistics)
描述性統計用於總結和描述數據的基本特徵。它不會進行推斷,而是關注數據的模式和趨勢,常見指標包括:
均值(Mean):數據集的平均值。
$$ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i $$
中位數(Median):排序後數據集中位的位置。
標準差(Standard Deviation):數據點與均值之間的平均偏差。
$$ \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2} $$
變異數(Variance):標準差的平方,表示數據分佈的分散程度。
$$ \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 $$
推論性統計(Inferential Statistics)
推論性統計通過從樣本數據中得出的結論來推測母體特徵。這是機器學習的核心方法之一,因為我們常常從有限的數據中訓練模型,並希望它能對未來數據進行預測。
機器學習中的許多算法都依賴於概率論。理解隨機事件和隨機變量是理解模型預測的重點。
隨機變量是與隨機實驗結果相關聯的變量,表示了可能結果的數值。
正態分佈(Normal Distribution)
許多自然現象的近似模型,其密度函數為:
$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) $$
其中 $\mu$ 是均值,$\sigma$ 是標準差。