第 9 題:延遲與 Token 的聯合分析¶
< 返回目錄 | < 上一題:故障類型診斷 | 下一題:分布關係全景圖 >
場景:PM 的追問¶
「等等,」PM 皺著眉頭看著儀表板,「響應時間長的請求,是不是 token 也比較多?」
你想了想:「對,輸出越長,當然需要越多時間。」
「那你能量化這個關係嗎?我想知道:如果一個請求已經跑了 3 秒,預期它會輸出多少 token?」
你意識到這不是獨立的兩個變數——延遲 T 和相對 Token 數 N 有某種聯合分布。 而且這個分布的支撐區域不是矩形:N 越大,T 通常越大。
核心問題:如何處理「非矩形區域」的聯合分布?如何從一個變數預測另一個?
(a) 非矩形區域的邊際 PDF¶
4 分 ・ 大三
假設延遲 T(秒)和相對 Token 數 N(歸一化到 0-1)的聯合 PDF 為:
直覺:\(t\) 越大,\(n\) 的可能範圍越大(上界 \(1 - e^{-t}\) 趨近 1),表示「跑越久,token 可以越多」。
你需要知道:如何在非矩形區域求邊際分布?
題目:
- 畫出支撐區域(\(t\)-\(n\) 平面上哪些點有機率密度)
- 驗證這是有效的 PDF:\(\iint f(t,n) \, dn\, dt = 1\)
- 求邊際 PDF \(f_T(t)\)(對 \(n\) 積分)
- 求邊際 PDF \(f_N(n)\)(關鍵:積分範圍是 \(t \geq -\ln(1-n)\))
解答
Step 1:支撐區域
這是一個由 \(n = 0\)(下界)、\(n = 1 - e^{-t}\)(上界曲線)和 \(t = 0\)(左邊界)圍成的區域。 當 \(t \to \infty\) 時,上界趨近 \(n = 1\)。
Step 2:驗證 PDF
Step 3:邊際 PDF \(f_T(t)\)
Step 4:邊際 PDF \(f_N(n)\)
給定 \(n\),\(t\) 的範圍是 \(t \geq -\ln(1-n)\)(從 \(n \leq 1 - e^{-t}\) 反解):
這是一個線性遞減的 PDF,說明小 token 數更常見。
這個計算有什麼用?
非矩形區域的關鍵:求 \(f_N(n)\) 時,積分下界是 \(n\) 的函數!
考試技巧: 1. 先畫支撐區域 2. 確定「給定一個變數,另一個變數的範圍」 3. 積分範圍可能是變數的函數
(b) 條件分布與預測¶
4 分 ・ 大三
PM 追問:「如果我看到一個請求已經跑了 \(t\) 秒,預期的 token 數是多少?」
你需要知道:條件 PDF 和條件期望
題目:
- 求條件 PDF \(f_{N|T}(n|t)\)
- 計算 \(E[N|T=t]\)
- 若請求已經跑了 3 秒,預期的相對 Token 數是多少?
- 比較 \(E[N|T=1]\) 和 \(E[N|T=5]\),驗證「跑越久,token 越多」
解答
Step 1:條件 PDF
這是 \([0, 1-e^{-t}]\) 上的均勻分布!
Step 2:條件期望
因為 \(N|T=t \sim \text{Uniform}(0, 1-e^{-t})\):
Step 3:T = 3 秒
預期相對 token 數約 47.5%。
Step 4:比較
- \(E[N|T=1] = \frac{1-e^{-1}}{2} = \frac{0.632}{2} = 0.316\)
- \(E[N|T=5] = \frac{1-e^{-5}}{2} = \frac{0.993}{2} = 0.497\)
確實「跑越久,token 越多」。
這個計算有什麼用?
實務應用:
| 延遲 (秒) | 預期 Token 比例 | 說明 |
|---|---|---|
| 1 | 31.6% | 快速回應,輸出較短 |
| 3 | 47.5% | 中等 |
| 5 | 49.7% | 接近上限 |
預測公式:\(E[N|T=t] = \frac{1-e^{-t}}{2}\)
© 變數變換:效率指標¶
4 分 ・ 碩一
你想定義一個「效率指標」:\(W = T - 2N\)(延遲減去 token 的兩倍)。
\(W\) 越大,表示「花的時間比應該的多」——可能是系統效能問題。
你需要知道:如何用變數變換求新隨機變數的分布?
題目:
- 計算 \(E[W] = E[T] - 2E[N]\)
- 計算 \(\text{Var}(W)\)(需要 \(\text{Cov}(T, N)\))
- 設計「低效請求」告警閾值 \(w_0\):若超過多少標準差算異常?
解答
Step 1:計算 \(E[T]\) 和 \(E[N]\)
Step 2:計算 \(\text{Var}(W)\)
需要 \(E[T^2]\), \(E[N^2]\), \(E[TN]\):
Step 3:告警閾值
若設 \(w_0 = E[W] + 2\sigma_W = 0.833 + 1.6 = 2.43\),則超過此值的請求可能有效能問題。
數學小結:一般聯合 PDF 操作
| 操作 | 公式 | 本題範例 |
|---|---|---|
| 邊際 PDF | \(f_X(x) = \int f_{X,Y}(x,y) \, dy\) | 注意積分範圍 |
| 條件 PDF | \(f_{Y\|X}(y\|x) = f(x,y)/f_X(x)\) | 本題得到 Uniform |
| 條件期望 | \(E[Y\|X=x] = \int y \cdot f_{Y\|X}(y\|x) \, dy\) | \(\frac{1-e^{-t}}{2}\) |
| 變數變換 | \(E[g(X,Y)] = \iint g(x,y) f(x,y) \, dx\, dy\) | 求 \(E[W]\), \(\text{Cov}\) |
關鍵技巧:非矩形區域時,積分上下界是另一變數的函數。
第 9 題小結:聯合分布工具箱¶
「延遲和 Token 數有關係嗎?」
│
▼
問題 1:邊際分布是什麼?
├─► 對另一變數積分(注意非矩形區域!)
│
▼
問題 2:知道延遲,能預測 Token 嗎?
├─► 條件 PDF → 條件期望 E[N|T=t]
│
▼
問題 3:如何定義「效率」?
└─► 變數變換 W = T - 2N → 求 E[W], Var(W)