第 5 題:月度成本預測¶
< 返回目錄 | < 上一題:Token 計費模型 | 下一題:GPU 容量規劃 >
場景延續¶
財務長聽完你解釋「5.2% 取整損失」後,點點頭:「好,那下個月的 API 成本會落在什麼範圍?我需要一個 95% 信賴區間來做預算。」
你的問題:如何從「每秒成本」推算「月度成本」的信賴區間?
(a) 日成本分布¶
3 分 ・ 大三
往上累積:一天有 86400 秒,日成本 \(C_{day} = \sum_{t=1}^{86400} C_t\)。
你需要知道:大量獨立隨機變數的和近似什麼分布?
題目:
- 用中央極限定理說明 \(C_{day}\) 的近似分布
- 計算 \(E[C_{day}]\) 和 \(\text{Var}(C_{day})\)(假設 \(E[C] = 210400\),\(\text{Var}(C) = 4.5 \times 10^{10}\))
- 日成本的 95% 信賴區間是多少?
解答
-
由 CLT,\(C_{day} \approx N(\mu_{day}, \sigma^2_{day})\)
-
\(E[C_{day}] = 86400 \times 210400 = 1.82 \times 10^{10}\) tokens
\(\text{Var}(C_{day}) = 86400 \times 4.5 \times 10^{10} = 3.89 \times 10^{15}\)
\(\sigma_{day} = 6.2 \times 10^{7}\) tokens
-
95% CI = \(\mu \pm 1.96\sigma = [1.70 \times 10^{10}, 1.94 \times 10^{10}]\) tokens
這個計算有什麼用?
預算規劃:日成本約 182 億 tokens,波動約 6.2 億(約 3.4%)。
換算成美元(假設 $0.01/1K tokens):日均 $182K,波動 $6.2K。
數學小結:中央極限定理 (CLT)
中央極限定理 是統計學最重要的定理之一:
無論原始分布是什麼,大量獨立同分布隨機變數的和近似 Normal 分布。
設 \(X_1, X_2, \ldots, X_n\) iid,\(E[X_i] = \mu\),\(\text{Var}(X_i) = \sigma^2\),則:
實用形式:\(\sum_{i=1}^n X_i \approx N(n\mu, n\sigma^2)\)
| 應用場景 | 原始分布 | CLT 近似 |
|---|---|---|
| 日成本 | 複合 Poisson | Normal |
| 月成本 | Normal 的和 | Normal |
| 請求數 | Poisson | Normal(當 \(\lambda\) 大) |
(b) 月成本信賴區間¶
3 分 ・ 大三
最終答案:月成本 \(C_{month} = \sum_{d=1}^{30} C_{day,d}\)。
題目:
- 計算 \(E[C_{month}]\) 和 \(\sigma_{month}\)
- 給財務長一個「95% 信賴區間」的預算範圍
- 為什麼「月波動率」比「日波動率」小?
解答
-
\(E[C_{month}] = 30 \times E[C_{day}] = 5.46 \times 10^{11}\) tokens
\(\text{Var}(C_{month}) = 30 \times \text{Var}(C_{day})\)
\(\sigma_{month} = \sqrt{30} \times \sigma_{day} = 3.4 \times 10^{8}\) tokens
-
95% CI = \([5.39 \times 10^{11}, 5.53 \times 10^{11}]\) tokens
換算:月預算 $5.46M ± $67K(約 1.2% 波動)
-
波動率下降:\(\frac{\sigma_{month}}{E[C_{month}]} = \frac{\sqrt{30} \sigma_{day}}{30 \cdot \mu_{day}} = \frac{1}{\sqrt{30}} \cdot \frac{\sigma_{day}}{\mu_{day}}\)
月波動率 = 日波動率 / \(\sqrt{30}\) ≈ 日波動率 / 5.5
這是「大數法則」的效果——平均後波動變小。
這個計算有什麼用?
回答財務長的問題:月成本約 $5.46M,95% 的月份落在 $5.39M 到 $5.53M 之間。
預算建議:設定預算為 $5.6M(上限 + 緩衝),超支機率 < 2.5%。
進階挑戰:為什麼財務喜歡 MAD?¶
3 分 ・ 大二
財務長說:「標準差我懂,但能不能給我一個更直觀的『平均偏離預算多少』的數字?」
你想到:Mean Absolute Deviation (MAD) = \(E[|X - \mu|]\)
你需要知道:MAD 與標準差的數學關係
題目:假設月成本 \(C \sim N(\mu, \sigma^2)\)。
- 利用 Normal 的對稱性,計算 \(E[|C - \mu|]\)
- 證明:對 Normal 分布,MAD \(= \sigma \sqrt{2/\pi} \approx 0.798\sigma\)
- 若 \(\sigma = 1.2\) 億 tokens(約 $67K 美元),MAD 是多少?
- 給財務長一個直觀的說法:「平均每月偏離預算 ___ 萬美元」
- 討論:MAD vs 標準差,哪個對離群值更穩健?
解答
Step 1:計算 \(E[|C - \mu|]\)
令 \(Z = (C - \mu)/\sigma \sim N(0, 1)\),則 \(|C - \mu| = \sigma |Z|\)。
由對稱性,\(|Z|\) 相當於 \(Z\) 的絕對值(半常態分布):
令 \(u = z^2/2\),\(du = z\,dz\):
Step 2:MAD 公式
Step 3:數值計算
\(\sigma = 1.2\) 億 tokens = $67K:
Step 4:給財務長的說法
「平均每月的實際成本偏離預算約 5.3 萬美元。」
(比「標準差 6.7 萬美元」更直觀!)
Step 5:穩健性比較
| 指標 | 對離群值的敏感度 | 解釋 |
|---|---|---|
| 標準差 | 高(平方放大) | 一個極端值會大幅拉高 |
| MAD | 中等(絕對值) | 受影響較小 |
| 中位數絕對離差 | 低 | 最穩健 |
財務喜歡 MAD 的原因: - 單位直觀(美元) - 偶爾的極端成本不會過度影響 - 與預算偏離的「平均感受」更貼近
數學小結:絕對離差
| 分布 | \(E[|X - \mu|]\) 公式 | |------|-------------------| | Normal | \(\sigma \sqrt{2/\pi} \approx 0.798\sigma\) | | Exponential | \(2/\lambda \cdot e^{-1} \approx 0.736 / \lambda\) | | Uniform(a,b) | \((b-a)/4\) |
用途: - 財務報表中的「平均偏離」 - 異常檢測中的穩健距離度量 - 比標準差更直觀的波動描述
第 4-5 題小結:你的成本分析工具箱¶
「為什麼帳單比預期高 5%?」
│
├─► 單次 token 數是隨機的
│ └─► 工具:Exponential 分布
│
▼
「取整計費造成多少損失?」
│
├─► 離散化後的分布
│ └─► 工具:Geometric 分布(離散化 Exponential)
│
▼
「每秒總成本怎麼算?」
│
├─► 隨機數量 × 隨機金額
│ └─► 工具:複合 Poisson 分布、全期望/全變異
│
▼
「日成本/月成本的分布?」
│
├─► 大量隨機變數的和
│ └─► 工具:中央極限定理 → Normal 近似
│
▼
「95% 信賴區間是多少?」
│
└─► 工具:Normal 分位數計算
分布轉換鏈: