跳轉到

Q10:最小平方法

考點:最小平方法、正規方程、投影矩陣、\(A^TA\hat{x} = A^Tb\)


核心洞察

最小平方的幾何本質

Ax = b 無解 ⟺ b ∉ Col(A)
    └──→ 找 x̂ 使 ‖Ax - b‖ 最小
              └──→ Ax̂ = b 在 Col(A) 上的正交投影
                        └──→ 殘差 r = b - Ax̂ ⊥ Col(A)
                                    └──→ Aᵀr = 0 ⟹ 正規方程 AᵀAx̂ = Aᵀb

投影矩陣

\[P = A(A^TA)^{-1}A^T\]
性質 公式 意義
冪等 \(P^2 = P\) 投影兩次 = 一次
對稱 \(P^T = P\) 正交投影(非斜投影)
特徵值 只有 0, 1 \(\lambda^2 = \lambda\)
Col\((P)\) $= $ Col\((A)\) 投影空間
Null\((P)\) $= $ Col\((A)^\perp\) 被消滅的空間

題型分類

類型 1:正規方程(必考)

\(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\)

前提\(A\) 列滿秩(\(A^TA\) 可逆)

簡化:若 \(A\) 列正交歸一(\(A^TA = I\)),則 \(\hat{\mathbf{x}} = A^T\mathbf{b}\)

類型 2:投影矩陣性質

證明 \(P^2 = P\)

\[P^2 = A(A^TA)^{-1}A^T \cdot A(A^TA)^{-1}A^T = A(A^TA)^{-1}A^T = P\]

類型 3:投影矩陣特徵值

證明投影矩陣特徵值只有 0 和 1

\(P^2 = P \Rightarrow P^2\mathbf{v} = P\mathbf{v} \Rightarrow \lambda^2 = \lambda \Rightarrow \lambda \in \{0, 1\}\)

類型 4:正交分解

證明 \(\mathbf{b} = P\mathbf{b} + (I-P)\mathbf{b}\) 是正交分解

  • $P\mathbf{b} \in $ Col\((A)\)
  • $(I-P)\mathbf{b} \in $ Col\((A)^\perp\)
  • 兩者正交:\(\langle P\mathbf{b}, (I-P)\mathbf{b} \rangle = \mathbf{b}^T P^T(I-P)\mathbf{b} = \mathbf{b}^T P(I-P)\mathbf{b} = \mathbf{b}^T (P - P^2)\mathbf{b} = 0\)

陷阱

陷阱 1:(AᵀA)⁻¹Aᵀ 何時存在?

需要 \(A\) 列滿秩(rank\((A) = n\)),否則 \(A^TA\) 不可逆。

列不滿秩時:最小平方解**不唯一**(用 Moore-Penrose 偽逆 \(A^+\)

陷阱 2:投影矩陣不一定對稱

\(P^2 = P\) 只是「冪等」,不一定對稱。

正交投影\(P^2 = P\) \(P^T = P\)

斜投影\(P^2 = P\)\(P^T \neq P\)

陷阱 3:P = AAᵀ 只在特定條件下成立

錯誤\(P = AA^T\)(一般)

正確\(P = AA^T\) 當且僅當 \(A^TA = I\)\(A\) 列正交歸一)


題目

基礎題(大二)

10.1\(A = \begin{bmatrix} 1 & 1 \\ 1 & -1 \\ 1 & 0 \end{bmatrix}\)\(\mathbf{b} = \begin{bmatrix} 2 \\ 0 \\ 1 \end{bmatrix}\)。求最小平方解。

解答

\(A^TA = \begin{bmatrix} 3 & 0 \\ 0 & 2 \end{bmatrix}\)\(A^T\mathbf{b} = \begin{bmatrix} 3 \\ 2 \end{bmatrix}\)

\(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b} = \begin{bmatrix} 1/3 & 0 \\ 0 & 1/2 \end{bmatrix}\begin{bmatrix} 3 \\ 2 \end{bmatrix} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}\)

10.2 證明:若 \(P\) 是投影矩陣,則 \(I - P\) 也是投影矩陣。

解答

\((I-P)^2 = I - 2P + P^2 = I - 2P + P = I - P\)

\(P\) 是正交投影(\(P^T = P\)),則 \((I-P)^T = I - P\)

\(I - P\) 投影到 Col\((A)^\perp\)\(\square\)

10.3\(P\)\(n \times n\) 投影矩陣,rank\((P) = r\)。求 \(\text{tr}(P)\)

解答

\(P\) 可對角化(因為 \(P^2 = P\) 最小多項式無重根)

特徵值只有 0(重數 \(n-r\))和 1(重數 \(r\)

\(\text{tr}(P) = \sum \lambda_i = 0 \cdot (n-r) + 1 \cdot r = r = \text{rank}(P)\)


進階題(大三/碩一)

10.4 證明:若 \(Q\) 的列正規正交(\(Q^TQ = I\)),則 \(P = QQ^T\) 是正交投影到 Col\((Q)\)

解答

冪等\(P^2 = QQ^TQQ^T = QIQ^T = QQ^T = P\)

對稱\(P^T = (QQ^T)^T = QQ^T = P\)

投影空間:Col$(P) = $ Col$(QQ^T) = $ Col\((Q)\)

\(P\) 是到 Col\((Q)\) 的正交投影。\(\square\)

10.5(PCA 核心)證明:對半正定矩陣 \(\Sigma\),最大化 \(\mathbf{w}^T\Sigma\mathbf{w}\)\(\|\mathbf{w}\|=1\))的 \(\mathbf{w}\) 是最大特徵值對應的特徵向量。

解答

Rayleigh 商\(R(\mathbf{w}) = \frac{\mathbf{w}^T\Sigma\mathbf{w}}{\mathbf{w}^T\mathbf{w}}\)

Lagrange 乘數法

\(\mathcal{L} = \mathbf{w}^T\Sigma\mathbf{w} - \lambda(\mathbf{w}^T\mathbf{w} - 1)\)

\(\nabla_\mathbf{w}\mathcal{L} = 2\Sigma\mathbf{w} - 2\lambda\mathbf{w} = 0\)

\(\Sigma\mathbf{w} = \lambda\mathbf{w}\)(特徵方程!)

目標值 \(= \mathbf{w}^T\Sigma\mathbf{w} = \mathbf{w}^T(\lambda\mathbf{w}) = \lambda\)

最大值在 \(\lambda = \lambda_{max}\) 時達到。\(\square\)

10.6 設矩陣 \(A \in \mathbb{R}^{d \times m}\),向量 \(\mathbf{c} \in \mathbb{R}^d\)

(a) 寫出最小平方問題 (b) 給出解的公式(假設 \(A\) 列滿秩) © 解釋殘差 \(\mathbf{r} = \mathbf{c} - A\hat{\mathbf{x}}\) 的幾何意義

解答

(a) 最小化 \(\|\mathbf{c} - A\mathbf{x}\|^2\)

(b) 正規方程:\(A^TA\hat{\mathbf{x}} = A^T\mathbf{c}\)

解:\(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{c}\)

© 殘差 \(\mathbf{r} = \mathbf{c} - A\hat{\mathbf{x}}\) 滿足 \(\mathbf{r} \perp \text{Col}(A)\)

幾何意義:\(\mathbf{r}\) 是向量 \(\mathbf{c}\)\(\text{Col}(A)^\perp\) 上的分量——無法被 \(A\) 的列向量的任何線性組合表示的部分。\(\square\)


概念關聯

Ax = b 無解(b ∉ Col(A))
    └──→ 最小平方:min‖Ax - b‖²
              ├──→ 幾何:找 Col(A) 中最近點
              │           │
              │           └──→ Ax̂ = proj_{Col(A)}(b)
              └──→ 代數:正規方程 AᵀAx̂ = Aᵀb
                        └──→ 若 A 列滿秩:x̂ = (AᵀA)⁻¹Aᵀb

速查:最小平方公式

條件 公式
\(A\) 列滿秩 \(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\)
\(A\) 列正交歸一 \(\hat{\mathbf{x}} = A^T\mathbf{b}\)
投影矩陣 \(P = A(A^TA)^{-1}A^T\)
殘差 \(\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}} = (I-P)\mathbf{b}\)

← 上一題:矩陣分解 | 返回目錄