Q10:最小平方法¶
考點:最小平方法、正規方程、投影矩陣、\(A^TA\hat{x} = A^Tb\)
核心洞察¶
最小平方的幾何本質:
Ax = b 無解 ⟺ b ∉ Col(A)
│
└──→ 找 x̂ 使 ‖Ax - b‖ 最小
│
└──→ Ax̂ = b 在 Col(A) 上的正交投影
│
└──→ 殘差 r = b - Ax̂ ⊥ Col(A)
│
└──→ Aᵀr = 0 ⟹ 正規方程 AᵀAx̂ = Aᵀb
投影矩陣:
| 性質 | 公式 | 意義 |
|---|---|---|
| 冪等 | \(P^2 = P\) | 投影兩次 = 一次 |
| 對稱 | \(P^T = P\) | 正交投影(非斜投影) |
| 特徵值 | 只有 0, 1 | \(\lambda^2 = \lambda\) |
| Col\((P)\) | $= $ Col\((A)\) | 投影空間 |
| Null\((P)\) | $= $ Col\((A)^\perp\) | 被消滅的空間 |
題型分類¶
類型 1:正規方程(必考)¶
求 \(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\)
前提:\(A\) 列滿秩(\(A^TA\) 可逆)
簡化:若 \(A\) 列正交歸一(\(A^TA = I\)),則 \(\hat{\mathbf{x}} = A^T\mathbf{b}\)
類型 2:投影矩陣性質¶
證明 \(P^2 = P\)
類型 3:投影矩陣特徵值¶
證明投影矩陣特徵值只有 0 和 1
\(P^2 = P \Rightarrow P^2\mathbf{v} = P\mathbf{v} \Rightarrow \lambda^2 = \lambda \Rightarrow \lambda \in \{0, 1\}\)
類型 4:正交分解¶
證明 \(\mathbf{b} = P\mathbf{b} + (I-P)\mathbf{b}\) 是正交分解
- $P\mathbf{b} \in $ Col\((A)\)
- $(I-P)\mathbf{b} \in $ Col\((A)^\perp\)
- 兩者正交:\(\langle P\mathbf{b}, (I-P)\mathbf{b} \rangle = \mathbf{b}^T P^T(I-P)\mathbf{b} = \mathbf{b}^T P(I-P)\mathbf{b} = \mathbf{b}^T (P - P^2)\mathbf{b} = 0\)
陷阱¶
陷阱 1:(AᵀA)⁻¹Aᵀ 何時存在?¶
需要 \(A\) 列滿秩(rank\((A) = n\)),否則 \(A^TA\) 不可逆。
列不滿秩時:最小平方解**不唯一**(用 Moore-Penrose 偽逆 \(A^+\))
陷阱 2:投影矩陣不一定對稱¶
\(P^2 = P\) 只是「冪等」,不一定對稱。
正交投影:\(P^2 = P\) 且 \(P^T = P\)
斜投影:\(P^2 = P\) 但 \(P^T \neq P\)
陷阱 3:P = AAᵀ 只在特定條件下成立¶
錯誤:\(P = AA^T\)(一般)
正確:\(P = AA^T\) 當且僅當 \(A^TA = I\)(\(A\) 列正交歸一)
題目¶
基礎題(大二)¶
10.1 設 \(A = \begin{bmatrix} 1 & 1 \\ 1 & -1 \\ 1 & 0 \end{bmatrix}\),\(\mathbf{b} = \begin{bmatrix} 2 \\ 0 \\ 1 \end{bmatrix}\)。求最小平方解。
解答
\(A^TA = \begin{bmatrix} 3 & 0 \\ 0 & 2 \end{bmatrix}\),\(A^T\mathbf{b} = \begin{bmatrix} 3 \\ 2 \end{bmatrix}\)
\(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b} = \begin{bmatrix} 1/3 & 0 \\ 0 & 1/2 \end{bmatrix}\begin{bmatrix} 3 \\ 2 \end{bmatrix} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}\)
10.2 證明:若 \(P\) 是投影矩陣,則 \(I - P\) 也是投影矩陣。
解答
\((I-P)^2 = I - 2P + P^2 = I - 2P + P = I - P\) ✓
若 \(P\) 是正交投影(\(P^T = P\)),則 \((I-P)^T = I - P\) ✓
\(I - P\) 投影到 Col\((A)^\perp\)。\(\square\)
10.3 設 \(P\) 是 \(n \times n\) 投影矩陣,rank\((P) = r\)。求 \(\text{tr}(P)\)。
解答
\(P\) 可對角化(因為 \(P^2 = P\) 最小多項式無重根)
特徵值只有 0(重數 \(n-r\))和 1(重數 \(r\))
\(\text{tr}(P) = \sum \lambda_i = 0 \cdot (n-r) + 1 \cdot r = r = \text{rank}(P)\)
進階題(大三/碩一)¶
10.4 證明:若 \(Q\) 的列正規正交(\(Q^TQ = I\)),則 \(P = QQ^T\) 是正交投影到 Col\((Q)\)。
解答
冪等:\(P^2 = QQ^TQQ^T = QIQ^T = QQ^T = P\) ✓
對稱:\(P^T = (QQ^T)^T = QQ^T = P\) ✓
投影空間:Col$(P) = $ Col$(QQ^T) = $ Col\((Q)\)
故 \(P\) 是到 Col\((Q)\) 的正交投影。\(\square\)
10.5(PCA 核心)證明:對半正定矩陣 \(\Sigma\),最大化 \(\mathbf{w}^T\Sigma\mathbf{w}\)(\(\|\mathbf{w}\|=1\))的 \(\mathbf{w}\) 是最大特徵值對應的特徵向量。
解答
Rayleigh 商:\(R(\mathbf{w}) = \frac{\mathbf{w}^T\Sigma\mathbf{w}}{\mathbf{w}^T\mathbf{w}}\)
Lagrange 乘數法:
\(\mathcal{L} = \mathbf{w}^T\Sigma\mathbf{w} - \lambda(\mathbf{w}^T\mathbf{w} - 1)\)
\(\nabla_\mathbf{w}\mathcal{L} = 2\Sigma\mathbf{w} - 2\lambda\mathbf{w} = 0\)
\(\Sigma\mathbf{w} = \lambda\mathbf{w}\)(特徵方程!)
目標值 \(= \mathbf{w}^T\Sigma\mathbf{w} = \mathbf{w}^T(\lambda\mathbf{w}) = \lambda\)
最大值在 \(\lambda = \lambda_{max}\) 時達到。\(\square\)
10.6 設矩陣 \(A \in \mathbb{R}^{d \times m}\),向量 \(\mathbf{c} \in \mathbb{R}^d\)。
(a) 寫出最小平方問題 (b) 給出解的公式(假設 \(A\) 列滿秩) © 解釋殘差 \(\mathbf{r} = \mathbf{c} - A\hat{\mathbf{x}}\) 的幾何意義
解答
(a) 最小化 \(\|\mathbf{c} - A\mathbf{x}\|^2\)
(b) 正規方程:\(A^TA\hat{\mathbf{x}} = A^T\mathbf{c}\)
解:\(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{c}\)
© 殘差 \(\mathbf{r} = \mathbf{c} - A\hat{\mathbf{x}}\) 滿足 \(\mathbf{r} \perp \text{Col}(A)\)
幾何意義:\(\mathbf{r}\) 是向量 \(\mathbf{c}\) 在 \(\text{Col}(A)^\perp\) 上的分量——無法被 \(A\) 的列向量的任何線性組合表示的部分。\(\square\)
概念關聯¶
Ax = b 無解(b ∉ Col(A))
│
└──→ 最小平方:min‖Ax - b‖²
│
├──→ 幾何:找 Col(A) 中最近點
│ │
│ └──→ Ax̂ = proj_{Col(A)}(b)
│
└──→ 代數:正規方程 AᵀAx̂ = Aᵀb
│
└──→ 若 A 列滿秩:x̂ = (AᵀA)⁻¹Aᵀb
速查:最小平方公式¶
| 條件 | 公式 |
|---|---|
| \(A\) 列滿秩 | \(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\) |
| \(A\) 列正交歸一 | \(\hat{\mathbf{x}} = A^T\mathbf{b}\) |
| 投影矩陣 | \(P = A(A^TA)^{-1}A^T\) |
| 殘差 | \(\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}} = (I-P)\mathbf{b}\) |