負二項分佈 (Negative Binomial Distribution)¶
記號: \(X \sim NB(r, p)\)
| 項目 | 公式/說明 |
|---|---|
| PMF | \(P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k = r, r+1, r+2, \ldots\) |
| 期望值 | \(E[X] = \frac{r}{p}\) |
| 變異數 | \(\text{Var}(X) = \frac{r(1-p)}{p^2}\) |
| MGF | \(M_X(t) = \left(\frac{pe^t}{1 - (1-p)e^t}\right)^r, \quad t < -\ln(1-p)\) |
| 與 Geometric 關係 | \(r\) 個獨立 \(\text{Geom}(p)\) 的和 |
| 用途 | 第 \(r\) 次成功所需試驗次數 |
故事理解:你在抽卡遊戲裡想收集5張SSR卡(\(r=5\)),每抽一次中SSR的機率是 \(p=0.01\)。你要抽幾次才能集滿5張?最少需要5次(每次都中),期望值是500次(\(5/0.01\))。這就是把5個獨立的幾何分佈加起來——每張SSR的等待時間都是幾何分佈!
進階思考題
延續抽卡場景:玩家想收集 \(r = 5\) 張不同的限定 SSR 卡,每次抽卡獨立,抽中任一張 SSR 的機率為 \(p = 0.02\)。令 \(X\) 為集滿 \(r\) 張所需的總抽數,則 \(X \sim NB(r, p)\)。
(a) PMF 推導與基礎計算
- 推導 \(P(X = k)\) 的公式(提示:第 \(k\) 次必須是第 \(r\) 次成功,前 \(k-1\) 次恰有 \(r-1\) 次成功)
- 代入 \(r = 5\),\(p = 0.02\),計算 \(E[X]\) 和 \(\text{Var}(X)\) 的數值
- 計算 \(P(X = 250)\),即恰好抽 250 次集滿的機率(提示:\(\binom{249}{4} = 158,501,749\),\((0.02)^5 \approx 3.2 \times 10^{-9}\),\((0.98)^{245} \approx 0.0072\))
(b) 與幾何分佈的關係
令 \(Y_i\) 為「已有 \(i-1\) 張後,抽到第 \(i\) 張」所需抽數,則 \(Y_i \sim \text{Geom}(p)\)。
- 證明 \(X = Y_1 + Y_2 + \cdots + Y_r\)
- 利用獨立性推導 \(E[X] = r/p\) 和 \(\text{Var}(X) = r(1-p)/p^2\)
- 若每張 SSR 的抽中機率不同(\(p_1 = 0.03\),\(p_2 = 0.02\),\(p_3 = 0.01\)),計算收集這 3 張的期望抽數
© 可加性與團隊合作大二
兩位玩家合作收集 SSR:玩家 A 負責收集前 3 張(\(X_1 \sim NB(3, 0.02)\)),玩家 B 負責收集後 2 張(\(X_2 \sim NB(2, 0.02)\))。
- 證明可加性:\(X_1 + X_2 \sim NB(5, 0.02)\)
- 若兩人同時開始抽,令 \(T = \max(X_1, X_2)\) 為「兩人都完成」的時間。\(E[T]\) 是否等於 \(E[X_1] + E[X_2]\)?為什麼?
- 比較「一人收集 5 張」vs「兩人分工」的期望完成時間
(d) 常態近似與大數定律大二
當 \(r\) 很大時,負二項分佈可用常態分佈近似。
- 寫出 \(X \sim NB(r, p)\) 的標準化變數 \(Z = \frac{X - E[X]}{\sqrt{\text{Var}(X)}}\)
- 若 \(r = 100\),\(p = 0.02\),計算 \(P(X > 5500)\) 的近似值(提示:\(\Phi(1.01) \approx 0.844\))
- 遊戲公司宣稱「99% 的玩家能在 6000 抽內集滿 100 張」,這個說法合理嗎?
(e) Poisson-Gamma 混合大三
令 \(\Lambda \sim \text{Gamma}(\alpha, \beta)\),給定 \(\Lambda = \lambda\) 時 \(X \mid \Lambda \sim \text{Pois}(\lambda)\)。
- 寫出 \(X\) 的邊際 PMF:\(P(X = k) = \int_0^\infty P(X=k|\Lambda=\lambda) f_\Lambda(\lambda) d\lambda\)
- 證明 \(X\) 服從負二項分佈,並求參數 \(r\) 和 \(p\)(以 \(\alpha, \beta\) 表示)
- 這個結果在過度離散(overdispersion)的計數資料建模中有何應用?
(f) 與 Gamma 分佈的關係碩一
類似於幾何分佈趨向指數分佈,負二項分佈在適當極限下趨向 Gamma 分佈。
- 設 \(X \sim NB(r, p)\),令 \(p = \lambda \Delta t\),\(Y = X \cdot \Delta t\)。當 \(\Delta t \to 0\) 時,說明 \(Y\) 的分佈趨向 \(\text{Gamma}(r, \lambda)\)
- 從 MGF 的角度驗證這個極限關係
- 解釋這個結果的直觀意義:「等待 \(r\) 次成功」的離散版本如何變成連續版本