Day 6 - 初始裝備之統計學

描述性統計（Descriptive Statistics）

描述性統計用於總結和描述數據的基本特徵。它不會進行推斷，而是關注數據的模式和趨勢，常見指標包括：
- 均值（Mean）：數據集的平均值。
  
  $$ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i $$
- 中位數（Median）：排序後數據集中位的位置。
- 標準差（Standard Deviation）：數據點與均值之間的平均偏差。
  
  $$ \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2} $$
- 變異數（Variance）：標準差的平方，表示數據分佈的分散程度。
  
  $$ \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 $$
推論性統計（Inferential Statistics）

推論性統計通過從樣本數據中得出的結論來推測母體特徵。這是機器學習的核心方法之一，因為我們常常從有限的數據中訓練模型，並希望它能對未來數據進行預測。
- 假設檢驗（Hypothesis Testing）
- 置信區間（Confidence Interval）
- p 值（p-value）：檢驗結果是否顯著的指標

機器學習中的許多算法都依賴於概率論。理解隨機事件和隨機變量是理解模型預測的重點。

隨機變量是與隨機實驗結果相關聯的變量，表示了可能結果的數值。

正態分佈（Normal Distribution）

許多自然現象的近似模型，其密度函數為：

$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) $$

其中 $\mu$ 是均值，$\sigma$ 是標準差。