進階主題¶
條件期望與條件變異數¶
Law of Total Expectation(全期望公式)¶
| 公式 | 說明 |
|---|---|
| \(E[X] = E[E[X \mid Y]]\) | 對 \(Y\) 的所有可能值加權平均 |
| \(E[X] = \sum_y E[X \mid Y=y] P(Y=y)\) | 離散情況 |
| \(E[X] = \int E[X \mid Y=y] f_Y(y) dy\) | 連續情況 |
應用:當直接計算 \(E[X]\) 困難時,可透過條件在某個輔助隨機變數 \(Y\) 上分解。
Law of Total Variance(全變異數公式)¶
\[\text{Var}(X) = E[\text{Var}(X \mid Y)] + \text{Var}(E[X \mid Y])\]
解釋:
- \(E[\text{Var}(X \mid Y)]\):給定 \(Y\) 後 \(X\) 的平均變異數(within-group variance)
- \(\text{Var}(E[X \mid Y])\):條件期望本身的變異數(between-group variance)
例子:班級成績分析 - \(Y\):學生所在班級(1, 2, 3) - \(X\):學生成績 - \(E[X \mid Y=i]\):第 \(i\) 班的平均成績 - \(\text{Var}(X \mid Y=i)\):第 \(i\) 班內部的成績變異
總變異 = 班內平均變異 + 班間平均的變異
統計推斷基礎¶
最大概似估計(Maximum Likelihood Estimation, MLE)¶
給定觀測資料 \(x_1, \ldots, x_n\),概似函數定義為:
\[L(\theta; x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i; \theta)\]
對數概似函數:
\[\ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(x_i; \theta)\]
MLE:\(\hat{\theta}_{MLE} = \arg\max_\theta \ell(\theta)\)
通常通過求解 \(\frac{\partial \ell(\theta)}{\partial \theta} = 0\) 得到。
Fisher 訊息量(Fisher Information)¶
測量資料對參數 \(\theta\) 的訊息量:
\[I(\theta) = E\left[\left(\frac{\partial \log f(X;\theta)}{\partial \theta}\right)^2\right] = -E\left[\frac{\partial^2 \log f(X;\theta)}{\partial \theta^2}\right]\]
對於 \(n\) 個獨立觀測:\(I_n(\theta) = n \cdot I(\theta)\)
Cramér-Rao 下界(Cramér-Rao Lower Bound)¶
任何 \(\theta\) 的無偏估計 \(\hat{\theta}\) 的變異數有下界:
\[\text{Var}(\hat{\theta}) \geq \frac{1}{I_n(\theta)} = \frac{1}{n \cdot I(\theta)}\]
有效估計(Efficient Estimator):達到此下界的估計。
大偏差理論初步¶
Chernoff Bound¶
對於任意隨機變數 \(X\) 和 \(a \in \mathbb{R}\):
\[P(X \geq a) \leq \inf_{t > 0} e^{-ta} E[e^{tX}] = \inf_{t > 0} e^{-ta} M_X(t)\]
選擇最優的 \(t\) 可得到最緊的上界。
Hoeffding 不等式¶
若 \(X_1, \ldots, X_n\) 獨立,\(X_i \in [a_i, b_i]\),令 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\),則:
\[P(|\bar{X}_n - E[\bar{X}_n]| \geq \epsilon) \leq 2\exp\left(-\frac{2n^2\epsilon^2}{\sum_{i=1}^n (b_i - a_i)^2}\right)\]
特別地,若 \(X_i \in [0,1]\):
\[P(|\bar{X}_n - E[\bar{X}_n]| \geq \epsilon) \leq 2e^{-2n\epsilon^2}\]
應用:機器學習中的泛化誤差界、統計學習理論。