挑戰 B:跨概念綜合題¶
這類大題串連 3-5 個概念。能完整做出來,說明概念間的連結已經建立。
核心技巧¶
大題拆解策略:
看到大題 → 識別涉及的概念
│
├──→ 協方差矩陣 → 半正定、特徵值、PCA
├──→ 投影矩陣 → P² = P、特徵值 0/1、Col(A)
├──→ 基底變換 → 相似矩陣、P⁻¹AP
└──→ 特殊結構 → 分解為已知形式(如 aI + bJ)
綜合題 1:協方差矩陣與 PCA¶
設 \(X \in \mathbb{R}^{n \times d}\) 為資料矩陣(\(n\) 個樣本,\(d\) 維特徵,假設已中心化)。
協方差矩陣定義為 \(\Sigma = \frac{1}{n}X^TX \in \mathbb{R}^{d \times d}\)。
(a) 證明協方差矩陣 Σ 是半正定的¶
提示:對任意 \(\mathbf{v} \in \mathbb{R}^d\),計算 \(\mathbf{v}^T \Sigma \mathbf{v}\)。
解答
由半正定的定義,\(\Sigma\) 是半正定的。\(\square\)
(b) 求協方差矩陣的零特徵值個數¶
若 \(\text{rank}(X) = r < d\),求 \(\Sigma\) 的零特徵值個數。
解答
Step 1:計算 \(\text{rank}(\Sigma)\)
Step 2:零特徵值個數
\(\Sigma\) 是 \(d \times d\) 矩陣,有 \(d\) 個特徵值(計重數)。
非零特徵值的個數 = \(\text{rank}(\Sigma) = r\)
所以零特徵值個數 = \(d - r\)。\(\square\)
© 協方差矩陣與 XᵀX 的特徵向量關係¶
證明 \(\Sigma\) 的特徵向量就是 \(X^TX\) 的特徵向量,且特徵值差一個常數倍。
解答
設 \(X^TX \mathbf{v} = \mu \mathbf{v}\),\(\mathbf{v} \neq \mathbf{0}\)。
則:
所以 \(\mathbf{v}\) 也是 \(\Sigma\) 的特徵向量,對應特徵值 \(\lambda = \frac{\mu}{n}\)。
反之亦然,\(\Sigma\) 的特徵向量也是 \(X^TX\) 的特徵向量。\(\square\)
(d) PCA 最大化保留方差¶
若要降到 \(k\) 維,證明選取前 \(k\) 個最大特徵值對應的特徵向量能最大化保留的方差。
提示:這是 PCA 的核心定理。考慮投影到方向 \(\mathbf{w}\)(\(\|\mathbf{w}\| = 1\))後的方差。
解答
Step 1:投影方差
數據投影到方向 \(\mathbf{w}\) 後的方差:
Step 2:最大化問題
這是 Rayleigh 商最大化問題。
Step 3:利用拉格朗日乘數法
得 \(\Sigma\mathbf{w} = \lambda\mathbf{w}\),即 \(\mathbf{w}\) 是 \(\Sigma\) 的特徵向量!
此時方差 = \(\mathbf{w}^T\Sigma\mathbf{w} = \mathbf{w}^T(\lambda\mathbf{w}) = \lambda\)。
結論:選擇最大特徵值對應的特徵向量,能最大化投影方差。
前 \(k\) 個主成分對應前 \(k\) 大的特徵值。\(\square\)
綜合題 2:正交投影與最小平方法¶
設矩陣 \(A = [\mathbf{a}_1, \ldots, \mathbf{a}_m] \in \mathbb{R}^{n \times m}\),其列向量線性獨立(即 \(A^TA\) 可逆)。設 \(\mathbf{q} \in \mathbb{R}^n\)。
(a) 寫出正交投影公式¶
寫出向量 \(\mathbf{q}\) 在 \(\text{Col}(A)\) 上的正交投影。
分兩種情況:
- \(A\) 的列正交
- \(A\) 的列不正交
解答
情況 1:\(A\) 的列正交(設為 \(\mathbf{u}_1, \ldots, \mathbf{u}_m\))
若進一步是正規正交的(\(\|\mathbf{u}_i\| = 1\)):
情況 2:\(A\) 的列不正交
\(\square\)
(b) 證明投影矩陣的性質¶
證明投影矩陣 \(P = A(A^TA)^{-1}A^T\) 滿足 \(P^2 = P\) 和 \(P^T = P\)。
解答
證明 \(P^2 = P\):
證明 \(P^T = P\):
因為 \(A^TA\) 對稱,\((A^TA)^{-1}\) 也對稱,所以 \(\left((A^TA)^{-1}\right)^T = (A^TA)^{-1}\)。
\(\square\)
© 證明正交分解的唯一性¶
若 \(\mathbf{q} = \mathbf{p} + \mathbf{e}\),其中 \(\mathbf{p} \in \text{Col}(A)\),\(\mathbf{e} \perp \text{Col}(A)\),證明這個分解唯一。
解答
存在性:取 \(\mathbf{p} = P\mathbf{q}\),\(\mathbf{e} = \mathbf{q} - P\mathbf{q}\)。
- \(\mathbf{p} \in \text{Col}(A)\):因為 \(P\mathbf{q} = A(A^TA)^{-1}A^T\mathbf{q}\) 是 \(A\) 的列向量的線性組合。
- \(\mathbf{e} \perp \text{Col}(A)\):這是投影的定義。
唯一性:假設存在另一分解 \(\mathbf{q} = \mathbf{p}' + \mathbf{e}'\)。
則 \(\mathbf{p} - \mathbf{p}' = \mathbf{e}' - \mathbf{e}\)。
左邊 \(\in \text{Col}(A)\),右邊 \(\in \text{Col}(A)^\perp\)。
但 \(\text{Col}(A) \cap \text{Col}(A)^\perp = \{\mathbf{0}\}\)。
所以 \(\mathbf{p} = \mathbf{p}'\),\(\mathbf{e} = \mathbf{e}'\)。\(\square\)
(d) 連結最小平方法¶
為什麼最小平方法的解 \(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\) 能最小化 \(\|\mathbf{b} - A\mathbf{x}\|^2\)?
解答
我們要最小化 \(\|\mathbf{b} - A\mathbf{x}\|^2\)。
注意 \(A\mathbf{x} \in \text{Col}(A)\) 對任意 \(\mathbf{x}\)。
所以問題等價於:在 \(\text{Col}(A)\) 中找最接近 \(\mathbf{b}\) 的點。
由 ©,答案就是 \(\mathbf{b}\) 在 \(\text{Col}(A)\) 上的投影:
因為 \(A\) 的列線性獨立,\(A\hat{\mathbf{x}}\) 唯一確定 \(\hat{\mathbf{x}}\):
\(\square\)
綜合題 3:基底變換與相似矩陣¶
(a) 寫出基底變換矩陣¶
設 \(\mathcal{B} = \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}\) 是標準基底,\(\mathcal{C} = \{\mathbf{w}_1, \ldots, \mathbf{w}_n\}\) 是「新基底」。寫出基底變換矩陣 \(P_{\mathcal{B} \to \mathcal{C}}\)。
解答
設向量 \(\mathbf{x}\) 在 \(\mathcal{B}\) 下的座標是 \([\mathbf{x}]_\mathcal{B}\),在 \(\mathcal{C}\) 下的座標是 \([\mathbf{x}]_\mathcal{C}\)。
基底變換矩陣 \(P_{\mathcal{B} \to \mathcal{C}}\) 滿足:
構造方法:\(P_{\mathcal{B} \to \mathcal{C}}\) 的第 \(j\) 列是 \(\mathbf{v}_j\) 在 \(\mathcal{C}\) 下的座標。
或者:設 \(Q = [\mathbf{w}_1 | \cdots | \mathbf{w}_n]\)(\(\mathcal{C}\) 的基底向量排成矩陣),則:
\(\square\)
(b) 求線性變換在不同基底下的矩陣¶
若線性變換 \(T\) 在 \(\mathcal{B}\) 下的矩陣是 \(A\),求 \(T\) 在 \(\mathcal{C}\) 下的矩陣。
解答
設 \(T\) 在 \(\mathcal{C}\) 下的矩陣是 \(A'\)。
對任意向量 \(\mathbf{x}\):
又:
因此:
其中 \(Q = P_{\mathcal{C} \to \mathcal{B}}\)。\(\square\)
© 對角化條件¶
什麼條件下,線性變換 \(T\) 在某個基底下的矩陣是對角矩陣?
解答
\(T\) 在某個基底下是對角矩陣
\(\Leftrightarrow\) \(A\) 可對角化
\(\Leftrightarrow\) \(A\) 有 \(n\) 個線性獨立的特徵向量
\(\Leftrightarrow\) 每個特徵值的幾何重數 = 代數重數
此時,選擇特徵向量作為新基底 \(\mathcal{C}\),\(T\) 在 \(\mathcal{C}\) 下就是對角矩陣。\(\square\)
(d) 對角化矩陣 P 的幾何意義¶
若 \(A\) 可對角化為 \(A = PDP^{-1}\),解釋 \(P\) 的列向量的幾何意義。
解答
\(P\) 的列向量是 \(A\) 的特徵向量!
設 \(P = [\mathbf{v}_1 | \cdots | \mathbf{v}_n]\),\(D = \text{diag}(\lambda_1, \ldots, \lambda_n)\)。
驗證:
由 \(A = PDP^{-1}\),即 \(AP = PD\):
所以 \(A\mathbf{v}_i = \lambda_i\mathbf{v}_i\),即 \(\mathbf{v}_i\) 是對應 \(\lambda_i\) 的特徵向量。
幾何意義:\(P\) 的列向量定義了一個「特徵方向基底」,在這個基底下,\(A\) 的作用只是沿各方向縮放。\(\square\)
綜合題 4:特殊結構矩陣¶
設矩陣 \(B \in \mathbb{R}^{n \times n}\),對角線元素都是 \(a\),非對角線元素都是 \(b\)。
(a) 分解為 I 與 J 的線性組合¶
證明 \(B = (a-b)I + bJ\),其中 \(J\) 是全 1 矩陣。
解答
\((a-b)I\) 是對角線為 \(a-b\)、其他為 0 的矩陣。
\(bJ\) 是所有元素都是 \(b\) 的矩陣。
\(\square\)
(b) 求全 1 矩陣的特徵值和特徵向量¶
求 \(J\) 的特徵值和特徵向量。
解答
特徵值 \(n\):
\(J\mathbf{1} = n\mathbf{1}\),其中 \(\mathbf{1} = (1, 1, \ldots, 1)^T\)
特徵值 \(0\)(重數 \(n-1\)):
對於 \(\mathbf{v} \perp \mathbf{1}\)(即 \(\sum v_i = 0\)):
\((J\mathbf{v})_i = \sum_j v_j = 0\)
所以 \(J\mathbf{v} = \mathbf{0}\)。
總結:\(J\) 的特徵值是 \(n\)(重數 1)和 \(0\)(重數 \(n-1\))。\(\square\)
©(進階)求 B 的所有特徵值¶
利用 (b) 求 \(B\) 的所有特徵值(用 \(a, b, n\) 表示)。
解答
若 \(J\mathbf{v} = \mu\mathbf{v}\),則:
代入 \(J\) 的特徵值:
- \(\mu = n\):\(\lambda = a - b + bn = a + (n-1)b\)
- \(\mu = 0\):\(\lambda = a - b\)
答案:
- 特徵值 \(a + (n-1)b\),重數 1
- 特徵值 \(a - b\),重數 \(n-1\)
\(\square\)
(d)(進階)B 可逆的充要條件¶
\(B\) 可逆的充要條件是什麼?
解答
\(B\) 可逆 \(\Leftrightarrow\) 所有特徵值非零
\(\Leftrightarrow\) \(a + (n-1)b \neq 0\) 且 \(a - b \neq 0\)
\(\Leftrightarrow\) \(a \neq -(n-1)b\) 且 \(a \neq b\)
\(\square\)
(e)(進階)求 B 的逆矩陣¶
當 \(B\) 可逆時,求 \(B^{-1}\)。
解答
由 \(B = (a-b)I + bJ\),設 \(B^{-1} = \alpha I + \beta J\)。
展開:
注意 \(J^2 = nJ\):
比較係數:
- \(I\) 的係數:\((a-b)\alpha = 1 \Rightarrow \alpha = \frac{1}{a-b}\)
- \(J\) 的係數:\((a-b)\beta + b\alpha + nb\beta = 0\)
代入 \(\alpha\):
答案:
\(\square\)