跳轉到

第 9 題:延遲與 Token 的聯合分析

< 返回目錄 | < 上一題:故障類型診斷 | 下一題:分布關係全景圖 >


場景:PM 的追問

「等等,」PM 皺著眉頭看著儀表板,「響應時間長的請求,是不是 token 也比較多?」

你想了想:「對,輸出越長,當然需要越多時間。」

「那你能量化這個關係嗎?我想知道:如果一個請求已經跑了 3 秒,預期它會輸出多少 token?」

你意識到這不是獨立的兩個變數——延遲 T 和相對 Token 數 N 有某種聯合分布。 而且這個分布的支撐區域不是矩形:N 越大,T 通常越大。

核心問題:如何處理「非矩形區域」的聯合分布?如何從一個變數預測另一個?


(a) 非矩形區域的邊際 PDF

4 分大三

假設延遲 T(秒)和相對 Token 數 N(歸一化到 0-1)的聯合 PDF 為:

\[f_{T,N}(t, n) = 2e^{-t}, \quad 0 \leq n \leq 1 - e^{-t}, \; t \geq 0\]

直覺:\(t\) 越大,\(n\) 的可能範圍越大(上界 \(1 - e^{-t}\) 趨近 1),表示「跑越久,token 可以越多」。

你需要知道:如何在非矩形區域求邊際分布?

題目

  1. 畫出支撐區域(\(t\)-\(n\) 平面上哪些點有機率密度)
  2. 驗證這是有效的 PDF:\(\iint f(t,n) \, dn\, dt = 1\)
  3. 求邊際 PDF \(f_T(t)\)(對 \(n\) 積分)
  4. 求邊際 PDF \(f_N(n)\)關鍵:積分範圍是 \(t \geq -\ln(1-n)\)
解答

Step 1:支撐區域

\[\{(t, n) : t \geq 0, \; 0 \leq n \leq 1 - e^{-t}\}\]

這是一個由 \(n = 0\)(下界)、\(n = 1 - e^{-t}\)(上界曲線)和 \(t = 0\)(左邊界)圍成的區域。 當 \(t \to \infty\) 時,上界趨近 \(n = 1\)

Step 2:驗證 PDF

\[\int_0^\infty \int_0^{1-e^{-t}} 2e^{-t} \, dn \, dt = \int_0^\infty 2e^{-t} (1 - e^{-t}) \, dt\]
\[= 2\int_0^\infty (e^{-t} - e^{-2t}) \, dt = 2\left[1 - \frac{1}{2}\right] = 1 \quad \checkmark\]

Step 3:邊際 PDF \(f_T(t)\)

\[f_T(t) = \int_0^{1-e^{-t}} 2e^{-t} \, dn = 2e^{-t}(1 - e^{-t}), \quad t \geq 0\]

Step 4:邊際 PDF \(f_N(n)\)

給定 \(n\)\(t\) 的範圍是 \(t \geq -\ln(1-n)\)(從 \(n \leq 1 - e^{-t}\) 反解):

\[f_N(n) = \int_{-\ln(1-n)}^{\infty} 2e^{-t} \, dt = 2e^{\ln(1-n)} = 2(1-n), \quad 0 \leq n < 1\]

這是一個線性遞減的 PDF,說明小 token 數更常見。

這個計算有什麼用?

非矩形區域的關鍵:求 \(f_N(n)\) 時,積分下界是 \(n\) 的函數!

考試技巧: 1. 先畫支撐區域 2. 確定「給定一個變數,另一個變數的範圍」 3. 積分範圍可能是變數的函數


(b) 條件分布與預測

4 分大三

PM 追問:「如果我看到一個請求已經跑了 \(t\) 秒,預期的 token 數是多少?」

你需要知道:條件 PDF 和條件期望

題目

  1. 求條件 PDF \(f_{N|T}(n|t)\)
  2. 計算 \(E[N|T=t]\)
  3. 若請求已經跑了 3 秒,預期的相對 Token 數是多少?
  4. 比較 \(E[N|T=1]\)\(E[N|T=5]\),驗證「跑越久,token 越多」
解答

Step 1:條件 PDF

\[f_{N|T}(n|t) = \frac{f_{T,N}(t, n)}{f_T(t)} = \frac{2e^{-t}}{2e^{-t}(1-e^{-t})} = \frac{1}{1-e^{-t}}, \quad 0 \leq n \leq 1-e^{-t}\]

這是 \([0, 1-e^{-t}]\) 上的均勻分布

Step 2:條件期望

因為 \(N|T=t \sim \text{Uniform}(0, 1-e^{-t})\)

\[E[N|T=t] = \frac{0 + (1-e^{-t})}{2} = \frac{1-e^{-t}}{2}\]

Step 3:T = 3 秒

\[E[N|T=3] = \frac{1 - e^{-3}}{2} = \frac{1 - 0.05}{2} = 0.475\]

預期相對 token 數約 47.5%。

Step 4:比較

  • \(E[N|T=1] = \frac{1-e^{-1}}{2} = \frac{0.632}{2} = 0.316\)
  • \(E[N|T=5] = \frac{1-e^{-5}}{2} = \frac{0.993}{2} = 0.497\)

確實「跑越久,token 越多」。

這個計算有什麼用?

實務應用

延遲 (秒) 預期 Token 比例 說明
1 31.6% 快速回應,輸出較短
3 47.5% 中等
5 49.7% 接近上限

預測公式\(E[N|T=t] = \frac{1-e^{-t}}{2}\)


© 變數變換:效率指標

4 分碩一

你想定義一個「效率指標」:\(W = T - 2N\)(延遲減去 token 的兩倍)。

\(W\) 越大,表示「花的時間比應該的多」——可能是系統效能問題。

你需要知道:如何用變數變換求新隨機變數的分布?

題目

  1. 計算 \(E[W] = E[T] - 2E[N]\)
  2. 計算 \(\text{Var}(W)\)(需要 \(\text{Cov}(T, N)\)
  3. 設計「低效請求」告警閾值 \(w_0\):若超過多少標準差算異常?
解答

Step 1:計算 \(E[T]\)\(E[N]\)

\[E[T] = \int_0^\infty t \cdot 2e^{-t}(1-e^{-t}) \, dt = 2\int_0^\infty te^{-t} \, dt - 2\int_0^\infty te^{-2t} \, dt\]
\[= 2 \cdot 1 - 2 \cdot \frac{1}{4} = 2 - 0.5 = 1.5\]
\[E[N] = \int_0^1 n \cdot 2(1-n) \, dn = 2\int_0^1 (n - n^2) \, dn = 2\left[\frac{1}{2} - \frac{1}{3}\right] = \frac{1}{3}\]
\[E[W] = E[T] - 2E[N] = 1.5 - 2 \times \frac{1}{3} = 1.5 - 0.667 = 0.833\]

Step 2:計算 \(\text{Var}(W)\)

需要 \(E[T^2]\), \(E[N^2]\), \(E[TN]\)

\[E[T^2] = 2\int_0^\infty t^2 e^{-t}(1-e^{-t}) \, dt = 2(2 - \frac{2}{4}) = 3\]
\[\text{Var}(T) = 3 - 1.5^2 = 0.75\]
\[E[N^2] = 2\int_0^1 n^2(1-n) \, dn = 2\left[\frac{1}{3} - \frac{1}{4}\right] = \frac{1}{6}\]
\[\text{Var}(N) = \frac{1}{6} - \frac{1}{9} = \frac{1}{18}\]
\[E[TN] = \int_0^\infty \int_0^{1-e^{-t}} tn \cdot 2e^{-t} \, dn \, dt = \int_0^\infty te^{-t}(1-e^{-t})^2 \, dt = \frac{7}{12}\]
\[\text{Cov}(T, N) = E[TN] - E[T]E[N] = \frac{7}{12} - 1.5 \times \frac{1}{3} = \frac{7}{12} - 0.5 = \frac{1}{12}\]
\[\text{Var}(W) = \text{Var}(T) + 4\text{Var}(N) - 4\text{Cov}(T,N) = 0.75 + \frac{4}{18} - \frac{4}{12} = 0.75 + 0.222 - 0.333 = 0.639\]
\[\sigma_W = \sqrt{0.639} \approx 0.80\]

Step 3:告警閾值

若設 \(w_0 = E[W] + 2\sigma_W = 0.833 + 1.6 = 2.43\),則超過此值的請求可能有效能問題。

數學小結:一般聯合 PDF 操作
操作 公式 本題範例
邊際 PDF \(f_X(x) = \int f_{X,Y}(x,y) \, dy\) 注意積分範圍
條件 PDF \(f_{Y\|X}(y\|x) = f(x,y)/f_X(x)\) 本題得到 Uniform
條件期望 \(E[Y\|X=x] = \int y \cdot f_{Y\|X}(y\|x) \, dy\) \(\frac{1-e^{-t}}{2}\)
變數變換 \(E[g(X,Y)] = \iint g(x,y) f(x,y) \, dx\, dy\) \(E[W]\), \(\text{Cov}\)

關鍵技巧:非矩形區域時,積分上下界是另一變數的函數。


第 9 題小結:聯合分布工具箱

「延遲和 Token 數有關係嗎?」
問題 1:邊際分布是什麼?
    ├─► 對另一變數積分(注意非矩形區域!)
問題 2:知道延遲,能預測 Token 嗎?
    ├─► 條件 PDF → 條件期望 E[N|T=t]
問題 3:如何定義「效率」?
    └─► 變數變換 W = T - 2N → 求 E[W], Var(W)

< 返回目錄 | < 上一題:故障類型診斷 | 下一題:分布關係全景圖 >