跳轉到

挑戰 B:跨概念綜合題

這類大題串連 3-5 個概念。能完整做出來,說明概念間的連結已經建立。


核心技巧

大題拆解策略

看到大題 → 識別涉及的概念
    ├──→ 協方差矩陣 → 半正定、特徵值、PCA
    ├──→ 投影矩陣 → P² = P、特徵值 0/1、Col(A)
    ├──→ 基底變換 → 相似矩陣、P⁻¹AP
    └──→ 特殊結構 → 分解為已知形式(如 aI + bJ)

綜合題 1:協方差矩陣與 PCA

\(X \in \mathbb{R}^{n \times d}\) 為資料矩陣(\(n\) 個樣本,\(d\) 維特徵,假設已中心化)。

協方差矩陣定義為 \(\Sigma = \frac{1}{n}X^TX \in \mathbb{R}^{d \times d}\)


(a) 證明協方差矩陣 Σ 是半正定的

提示:對任意 \(\mathbf{v} \in \mathbb{R}^d\),計算 \(\mathbf{v}^T \Sigma \mathbf{v}\)

解答
\[\mathbf{v}^T \Sigma \mathbf{v} = \mathbf{v}^T \left(\frac{1}{n}X^TX\right) \mathbf{v} = \frac{1}{n}(X\mathbf{v})^T(X\mathbf{v}) = \frac{1}{n}\|X\mathbf{v}\|^2 \geq 0\]

由半正定的定義,\(\Sigma\) 是半正定的。\(\square\)


(b) 求協方差矩陣的零特徵值個數

\(\text{rank}(X) = r < d\),求 \(\Sigma\) 的零特徵值個數。

解答

Step 1:計算 \(\text{rank}(\Sigma)\)

\[\text{rank}(\Sigma) = \text{rank}\left(\frac{1}{n}X^TX\right) = \text{rank}(X^TX) = \text{rank}(X) = r\]

Step 2:零特徵值個數

\(\Sigma\)\(d \times d\) 矩陣,有 \(d\) 個特徵值(計重數)。

非零特徵值的個數 = \(\text{rank}(\Sigma) = r\)

所以零特徵值個數 = \(d - r\)\(\square\)


© 協方差矩陣與 XᵀX 的特徵向量關係

證明 \(\Sigma\) 的特徵向量就是 \(X^TX\) 的特徵向量,且特徵值差一個常數倍。

解答

\(X^TX \mathbf{v} = \mu \mathbf{v}\)\(\mathbf{v} \neq \mathbf{0}\)

則:

\[\Sigma \mathbf{v} = \frac{1}{n}X^TX \mathbf{v} = \frac{1}{n}\mu \mathbf{v} = \frac{\mu}{n}\mathbf{v}\]

所以 \(\mathbf{v}\) 也是 \(\Sigma\) 的特徵向量,對應特徵值 \(\lambda = \frac{\mu}{n}\)

反之亦然,\(\Sigma\) 的特徵向量也是 \(X^TX\) 的特徵向量。\(\square\)


(d) PCA 最大化保留方差

若要降到 \(k\) 維,證明選取前 \(k\) 個最大特徵值對應的特徵向量能最大化保留的方差。

提示:這是 PCA 的核心定理。考慮投影到方向 \(\mathbf{w}\)\(\|\mathbf{w}\| = 1\))後的方差。

解答

Step 1:投影方差

數據投影到方向 \(\mathbf{w}\) 後的方差:

\[\text{Var}_\mathbf{w} = \frac{1}{n}\sum_{i=1}^n (\mathbf{x}_i^T \mathbf{w})^2 = \frac{1}{n}\|X\mathbf{w}\|^2 = \mathbf{w}^T \Sigma \mathbf{w}\]

Step 2:最大化問題

\[\max_{\|\mathbf{w}\|=1} \mathbf{w}^T \Sigma \mathbf{w}\]

這是 Rayleigh 商最大化問題。

Step 3:利用拉格朗日乘數法

\[\mathcal{L} = \mathbf{w}^T \Sigma \mathbf{w} - \lambda(\mathbf{w}^T\mathbf{w} - 1)\]
\[\frac{\partial \mathcal{L}}{\partial \mathbf{w}} = 2\Sigma\mathbf{w} - 2\lambda\mathbf{w} = 0\]

\(\Sigma\mathbf{w} = \lambda\mathbf{w}\),即 \(\mathbf{w}\)\(\Sigma\) 的特徵向量!

此時方差 = \(\mathbf{w}^T\Sigma\mathbf{w} = \mathbf{w}^T(\lambda\mathbf{w}) = \lambda\)

結論:選擇最大特徵值對應的特徵向量,能最大化投影方差。

\(k\) 個主成分對應前 \(k\) 大的特徵值。\(\square\)


綜合題 2:正交投影與最小平方法

設矩陣 \(A = [\mathbf{a}_1, \ldots, \mathbf{a}_m] \in \mathbb{R}^{n \times m}\),其列向量線性獨立(即 \(A^TA\) 可逆)。設 \(\mathbf{q} \in \mathbb{R}^n\)


(a) 寫出正交投影公式

寫出向量 \(\mathbf{q}\)\(\text{Col}(A)\) 上的正交投影。

分兩種情況:

  1. \(A\) 的列正交
  2. \(A\) 的列不正交
解答

情況 1\(A\) 的列正交(設為 \(\mathbf{u}_1, \ldots, \mathbf{u}_m\)

\[\text{proj}_{\text{Col}(A)}(\mathbf{q}) = \sum_{i=1}^{m} \frac{\langle \mathbf{q}, \mathbf{u}_i \rangle}{\langle \mathbf{u}_i, \mathbf{u}_i \rangle} \mathbf{u}_i\]

若進一步是正規正交的(\(\|\mathbf{u}_i\| = 1\)):

\[\text{proj}_{\text{Col}(A)}(\mathbf{q}) = \sum_{i=1}^{m} \langle \mathbf{q}, \mathbf{u}_i \rangle \mathbf{u}_i = AA^T\mathbf{q}\]

情況 2\(A\) 的列不正交

\[\text{proj}_{\text{Col}(A)}(\mathbf{q}) = A(A^TA)^{-1}A^T\mathbf{q}\]

\(\square\)


(b) 證明投影矩陣的性質

證明投影矩陣 \(P = A(A^TA)^{-1}A^T\) 滿足 \(P^2 = P\)\(P^T = P\)

解答

證明 \(P^2 = P\)

\[P^2 = A(A^TA)^{-1}A^T \cdot A(A^TA)^{-1}A^T\]
\[= A(A^TA)^{-1}\underbrace{(A^TA)(A^TA)^{-1}}_{=I}A^T\]
\[= A(A^TA)^{-1}A^T = P\]

證明 \(P^T = P\)

\[P^T = \left(A(A^TA)^{-1}A^T\right)^T = A\left((A^TA)^{-1}\right)^TA^T\]

因為 \(A^TA\) 對稱,\((A^TA)^{-1}\) 也對稱,所以 \(\left((A^TA)^{-1}\right)^T = (A^TA)^{-1}\)

\[P^T = A(A^TA)^{-1}A^T = P\]

\(\square\)


© 證明正交分解的唯一性

\(\mathbf{q} = \mathbf{p} + \mathbf{e}\),其中 \(\mathbf{p} \in \text{Col}(A)\)\(\mathbf{e} \perp \text{Col}(A)\),證明這個分解唯一。

解答

存在性:取 \(\mathbf{p} = P\mathbf{q}\)\(\mathbf{e} = \mathbf{q} - P\mathbf{q}\)

  • \(\mathbf{p} \in \text{Col}(A)\):因為 \(P\mathbf{q} = A(A^TA)^{-1}A^T\mathbf{q}\)\(A\) 的列向量的線性組合。
  • \(\mathbf{e} \perp \text{Col}(A)\):這是投影的定義。

唯一性:假設存在另一分解 \(\mathbf{q} = \mathbf{p}' + \mathbf{e}'\)

\(\mathbf{p} - \mathbf{p}' = \mathbf{e}' - \mathbf{e}\)

左邊 \(\in \text{Col}(A)\),右邊 \(\in \text{Col}(A)^\perp\)

\(\text{Col}(A) \cap \text{Col}(A)^\perp = \{\mathbf{0}\}\)

所以 \(\mathbf{p} = \mathbf{p}'\)\(\mathbf{e} = \mathbf{e}'\)\(\square\)


(d) 連結最小平方法

為什麼最小平方法的解 \(\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\) 能最小化 \(\|\mathbf{b} - A\mathbf{x}\|^2\)

解答

我們要最小化 \(\|\mathbf{b} - A\mathbf{x}\|^2\)

注意 \(A\mathbf{x} \in \text{Col}(A)\) 對任意 \(\mathbf{x}\)

所以問題等價於:在 \(\text{Col}(A)\) 中找最接近 \(\mathbf{b}\) 的點。

由 ©,答案就是 \(\mathbf{b}\)\(\text{Col}(A)\) 上的投影:

\[A\hat{\mathbf{x}} = P\mathbf{b} = A(A^TA)^{-1}A^T\mathbf{b}\]

因為 \(A\) 的列線性獨立,\(A\hat{\mathbf{x}}\) 唯一確定 \(\hat{\mathbf{x}}\)

\[\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}\]

\(\square\)


綜合題 3:基底變換與相似矩陣


(a) 寫出基底變換矩陣

\(\mathcal{B} = \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}\) 是標準基底,\(\mathcal{C} = \{\mathbf{w}_1, \ldots, \mathbf{w}_n\}\) 是「新基底」。寫出基底變換矩陣 \(P_{\mathcal{B} \to \mathcal{C}}\)

解答

設向量 \(\mathbf{x}\)\(\mathcal{B}\) 下的座標是 \([\mathbf{x}]_\mathcal{B}\),在 \(\mathcal{C}\) 下的座標是 \([\mathbf{x}]_\mathcal{C}\)

基底變換矩陣 \(P_{\mathcal{B} \to \mathcal{C}}\) 滿足:

\[[\mathbf{x}]_\mathcal{C} = P_{\mathcal{B} \to \mathcal{C}} [\mathbf{x}]_\mathcal{B}\]

構造方法:\(P_{\mathcal{B} \to \mathcal{C}}\) 的第 \(j\) 列是 \(\mathbf{v}_j\)\(\mathcal{C}\) 下的座標。

或者:設 \(Q = [\mathbf{w}_1 | \cdots | \mathbf{w}_n]\)\(\mathcal{C}\) 的基底向量排成矩陣),則:

\[P_{\mathcal{B} \to \mathcal{C}} = Q^{-1}\]

\(\square\)


(b) 求線性變換在不同基底下的矩陣

若線性變換 \(T\)\(\mathcal{B}\) 下的矩陣是 \(A\),求 \(T\)\(\mathcal{C}\) 下的矩陣。

解答

\(T\)\(\mathcal{C}\) 下的矩陣是 \(A'\)

對任意向量 \(\mathbf{x}\)

\[[T(\mathbf{x})]_\mathcal{C} = A' [\mathbf{x}]_\mathcal{C}\]

又:

\[[T(\mathbf{x})]_\mathcal{C} = P_{\mathcal{B} \to \mathcal{C}} [T(\mathbf{x})]_\mathcal{B} = P_{\mathcal{B} \to \mathcal{C}} A [\mathbf{x}]_\mathcal{B} = P_{\mathcal{B} \to \mathcal{C}} A P_{\mathcal{C} \to \mathcal{B}} [\mathbf{x}]_\mathcal{C}\]

因此:

\[A' = P_{\mathcal{B} \to \mathcal{C}} A P_{\mathcal{C} \to \mathcal{B}} = Q^{-1}AQ\]

其中 \(Q = P_{\mathcal{C} \to \mathcal{B}}\)\(\square\)


© 對角化條件

什麼條件下,線性變換 \(T\) 在某個基底下的矩陣是對角矩陣?

解答

\(T\) 在某個基底下是對角矩陣

\(\Leftrightarrow\) \(A\) 可對角化

\(\Leftrightarrow\) \(A\)\(n\) 個線性獨立的特徵向量

\(\Leftrightarrow\) 每個特徵值的幾何重數 = 代數重數

此時,選擇特徵向量作為新基底 \(\mathcal{C}\)\(T\)\(\mathcal{C}\) 下就是對角矩陣。\(\square\)


(d) 對角化矩陣 P 的幾何意義

\(A\) 可對角化為 \(A = PDP^{-1}\),解釋 \(P\) 的列向量的幾何意義。

解答

\(P\) 的列向量是 \(A\) 的特徵向量!

\(P = [\mathbf{v}_1 | \cdots | \mathbf{v}_n]\)\(D = \text{diag}(\lambda_1, \ldots, \lambda_n)\)

驗證

\[AP = A[\mathbf{v}_1 | \cdots | \mathbf{v}_n] = [A\mathbf{v}_1 | \cdots | A\mathbf{v}_n]\]

\(A = PDP^{-1}\),即 \(AP = PD\)

\[[A\mathbf{v}_1 | \cdots | A\mathbf{v}_n] = [\lambda_1\mathbf{v}_1 | \cdots | \lambda_n\mathbf{v}_n]\]

所以 \(A\mathbf{v}_i = \lambda_i\mathbf{v}_i\),即 \(\mathbf{v}_i\) 是對應 \(\lambda_i\) 的特徵向量。

幾何意義\(P\) 的列向量定義了一個「特徵方向基底」,在這個基底下,\(A\) 的作用只是沿各方向縮放。\(\square\)


綜合題 4:特殊結構矩陣

設矩陣 \(B \in \mathbb{R}^{n \times n}\),對角線元素都是 \(a\),非對角線元素都是 \(b\)


(a) 分解為 I 與 J 的線性組合

證明 \(B = (a-b)I + bJ\),其中 \(J\) 是全 1 矩陣。

解答

\((a-b)I\) 是對角線為 \(a-b\)、其他為 0 的矩陣。

\(bJ\) 是所有元素都是 \(b\) 的矩陣。

\[(a-b)I + bJ = \begin{bmatrix} a-b+b & b & \cdots & b \\ b & a-b+b & \cdots & b \\ \vdots & & \ddots & \vdots \\ b & b & \cdots & a-b+b \end{bmatrix} = \begin{bmatrix} a & b & \cdots & b \\ b & a & \cdots & b \\ \vdots & & \ddots & \vdots \\ b & b & \cdots & a \end{bmatrix} = B\]

\(\square\)


(b) 求全 1 矩陣的特徵值和特徵向量

\(J\) 的特徵值和特徵向量。

解答

特徵值 \(n\)

\(J\mathbf{1} = n\mathbf{1}\),其中 \(\mathbf{1} = (1, 1, \ldots, 1)^T\)

特徵值 \(0\)(重數 \(n-1\)):

對於 \(\mathbf{v} \perp \mathbf{1}\)(即 \(\sum v_i = 0\)):

\((J\mathbf{v})_i = \sum_j v_j = 0\)

所以 \(J\mathbf{v} = \mathbf{0}\)

總結\(J\) 的特徵值是 \(n\)(重數 1)和 \(0\)(重數 \(n-1\))。\(\square\)


©(進階)求 B 的所有特徵值

利用 (b) 求 \(B\) 的所有特徵值(用 \(a, b, n\) 表示)。

解答

\(J\mathbf{v} = \mu\mathbf{v}\),則:

\[B\mathbf{v} = (a-b)I\mathbf{v} + bJ\mathbf{v} = (a-b)\mathbf{v} + b\mu\mathbf{v} = (a - b + b\mu)\mathbf{v}\]

代入 \(J\) 的特徵值:

  • \(\mu = n\)\(\lambda = a - b + bn = a + (n-1)b\)
  • \(\mu = 0\)\(\lambda = a - b\)

答案

  • 特徵值 \(a + (n-1)b\),重數 1
  • 特徵值 \(a - b\),重數 \(n-1\)

\(\square\)


(d)(進階)B 可逆的充要條件

\(B\) 可逆的充要條件是什麼?

解答

\(B\) 可逆 \(\Leftrightarrow\) 所有特徵值非零

\(\Leftrightarrow\) \(a + (n-1)b \neq 0\)\(a - b \neq 0\)

\(\Leftrightarrow\) \(a \neq -(n-1)b\)\(a \neq b\)

\(\square\)


(e)(進階)求 B 的逆矩陣

\(B\) 可逆時,求 \(B^{-1}\)

解答

\(B = (a-b)I + bJ\),設 \(B^{-1} = \alpha I + \beta J\)

\[BB^{-1} = [(a-b)I + bJ][\alpha I + \beta J] = I\]

展開:

\[(a-b)\alpha I + (a-b)\beta J + b\alpha J + b\beta J^2 = I\]

注意 \(J^2 = nJ\)

\[(a-b)\alpha I + [(a-b)\beta + b\alpha + nb\beta]J = I\]

比較係數:

  • \(I\) 的係數:\((a-b)\alpha = 1 \Rightarrow \alpha = \frac{1}{a-b}\)
  • \(J\) 的係數:\((a-b)\beta + b\alpha + nb\beta = 0\)

代入 \(\alpha\)

\[(a-b)\beta + \frac{b}{a-b} + nb\beta = 0$$ $$[(a-b) + nb]\beta = -\frac{b}{a-b}$$ $$[a + (n-1)b]\beta = -\frac{b}{a-b}$$ $$\beta = -\frac{b}{(a-b)[a+(n-1)b]}\]

答案

\[B^{-1} = \frac{1}{a-b}I - \frac{b}{(a-b)[a+(n-1)b]}J\]

\(\square\)