AI Agent 的成本也在指數成長嗎？

當 AI 系統的能力持續突破，我們自然會推估：何時 AI 能完成工程師一整天、一週、一年的工作？但有個關鍵資訊我們往往忽略了——使用 AI 執行這些任務的成本是多少？

過去 7 年，AI 系統確實呈現指數成長。模型參數規模成長了 4,000 倍，每項任務中模型運行的次數（生成的 token 數）成長了約 100,000 倍。AI 研究者也找到了大量效率提升，但 METR 測量巔峰效能的成本，很可能也在成長——而且是指數成長。

為何這件事至關重要

這可能不是什麼大問題。舉例來說，如果最好的 AI Agent 每年能完成的任務長度增加 3 倍，而執行成本也每年增加 3 倍，那麼 AI Agent 完成任務的成本相對於人類完成同樣任務的成本倍數就會維持不變。或者，如果成本成長週期比時間跨度更長，那麼 AI 系統相對於人類只會越來越便宜。

但如果成本成長速度快於時間跨度呢？在這種情況下，這些尖端 AI 系統相對於人類的成本競爭力反而會下降。METR 的時間跨度趨勢可能因此具有誤導性——它顯示的是最先進技術的進步，但部分進步來自於越來越龐大的計算資源投入，與經濟實用性漸行漸遠。這就像一級方程式賽車：展示的是可能性，而不是實用性。

因此，核心問題是：AI Agent 的「每小時」成本如何變化？

這裡的「每小時」成本，指的是使用 LLM 完成任務（以模型 50% 時間跨度為準）的財務成本，除以該時間跨度的長度。例如，Claude 4.1 Opus 的 50% 時間跨度是 2 小時——它能在 50% 的任務中成功完成人類軟體工程師需要 2 小時的工作。我們可以計算它執行此類任務的成本，除以 2，得出它從事這項工作的時薪。

大多數人對此幾乎一無所知。有些人認為每個任務的總成本維持不變，即使任務長度指數成長——這意味著時薪實際上在指數下降。其他人則認為總成本也在指數成長——畢竟我們已經看到使用尖端模型的成本急劇上升。更多人（包括我自己）完全不清楚 AI Agent 從事一小時軟體工程工作的成本究竟是多少——是幾分錢？幾美元？還是數百美元？AI Agent 的時薪不可能比人類還貴吧？

從 METR 圖表中挖掘洞察

幸運的是，METR 發布了一張能揭示 LLM Agent 每小時成本如何變化的圖表。這張圖表顯示效能如何隨成本增加而提升。成本指的是使用越來越多 token 來完成任務的成本（也因此使用越來越多計算資源）。

黃色曲線是人類在每項任務上的最佳表現。它平穩地向前向上延伸——要讓人類軟體工程師執行 8 小時任務，成本大約是執行 1 小時任務的 8 倍，這與線性關係一致。

其他顏色的曲線則是各種 LLM Agent 的表現。與人類不同的是，它們都呈現邊際報酬遞減：隨著計算資源增加，能達到的時間跨度最終會停滯並進入平原期。

甜蜜點：每個模型的最低時費

在這張雙對數圖上，每條常數時薪線都是斜率為 1 的直線。時薪越低，線就越靠左。對於每條曲線，我加入了一條與它相切的常數時薪線——那個切點就是該模型的甜蜜點（sweet spot），也就是模型達到的最佳時薪。

從圖表中可以觀察到：

人類軟體工程師最高時薪為 $120/小時
AI Agent 的甜蜜點時薪從 $40/小時（o3）到 $0.40/小時（Grok 4 和 Sonnet 3.5）不等

這是相當大的範圍。模型之間的時間跨度差異約為 15 倍（無論以端點或甜蜜點判斷），但甜蜜點成本的差異高達 100 倍。

而且，這些數字還是模型的最佳時薪。在許多任務長度（包括接近高原期的部分），時薪要高出 10 到 100 倍。例如：

Grok 4 在甜蜜點為 $0.40/小時，但在最終高原期開頭為 $13/小時
GPT-5 處理約 45 分鐘任務時約 $13/小時，但處理 2 小時任務時為 $120/小時
o3 在發揮 1.5 小時任務能力時，時薪實際高達 $350/小時——比人類還貴

花這麼多錢雇用一個有一半機率會失敗的 Agent，代價著實不低——尤其在失敗比沒嘗試更糟糕的場景中。

飽和點：高原期的代價

除了甜蜜點，還需要找到每條曲線的飽和點（saturation point）——也就是高原期開始的位置。我定義的標準是：斜率降至甜蜜點 1/10 的點。在這個點上，成本增加 10% 只能讓時間跨度增加 1%。

觀察這些飽和點，可以發現任務持續時間與成本之間存在弱但明確的正相關。而且，較高的任務持續時間對應較高的時薪（這些時薪是模型甜蜜點的最佳時薪）。

關鍵發現與結論

這項分析揭示了幾個重要事實：

成本正在指數成長的證據

達成特定時間跨度所需的成本正在指數成長
甚至最佳時薪本身也在上升
部分模型的時薪已接近人類水準

對 METR 趨勢的質疑

METR 時間跨度趨勢可能部分是由不可持續成長的推理計算資源所驅動
「理論上可達成的時間跨度」與「經濟上可行的時間跨度」之間將出現分歧
AI Agent 的實際應用將落後於 METR 時間跨度趨勢，而且落後幅度會越來越大

分析的局限性

當然，這項分析有其局限：

需要涵蓋更多、更具代表性的模型曲線
需要找到方法解決某些模型在最後關頭的「上揚」問題
需要驗證 OpenAI 模型的定價數據是否有問題
需要明確將時薪與發布日期繪製成圖
需要數值化確定趨勢線和相關係數

AI 的「一級方程式」困境

這些發現指向一個令人警惕的可能性：如果這種關係持續下去，預測何時能達到特定時間跨度將具有誤導性，因為模型在首次達到這些能力時，成本可能高得離譜。我們需要等待額外的時間，讓成本降至合理水準。

METR 的時間跨度趨勢或許顯示了技術可能性，但並不等同於經濟實用性——這正是「一級方程式」的比喻：展示極限性能，但不一定是日常可及的選擇。

對於產業決策者和投資人而言，這意味著：不能只根據「AI 何時能完成 X 工作」來做規劃，還必須問「AI 以合理成本完成 X 工作是何時」。這兩者之間的差距，可能比大多數人的直覺判斷要大得多。