當 AI 系統的能力持續突破,我們自然會推估:何時 AI 能完成工程師一整天、一週、一年的工作?但有個關鍵資訊我們往往忽略了——使用 AI 執行這些任務的成本是多少?
過去 7 年,AI 系統確實呈現指數成長。模型參數規模成長了 4,000 倍,每項任務中模型運行的次數(生成的 token 數)成長了約 100,000 倍。AI 研究者也找到了大量效率提升,但 METR 測量巔峰效能的成本,很可能也在成長——而且是指數成長。
為何這件事至關重要
這可能不是什麼大問題。舉例來說,如果最好的 AI Agent 每年能完成的任務長度增加 3 倍,而執行成本也每年增加 3 倍,那麼 AI Agent 完成任務的成本相對於人類完成同樣任務的成本倍數就會維持不變。或者,如果成本成長週期比時間跨度更長,那麼 AI 系統相對於人類只會越來越便宜。
但如果成本成長速度快於時間跨度呢?在這種情況下,這些尖端 AI 系統相對於人類的成本競爭力反而會下降。METR 的時間跨度趨勢可能因此具有誤導性——它顯示的是最先進技術的進步,但部分進步來自於越來越龐大的計算資源投入,與經濟實用性漸行漸遠。這就像一級方程式賽車:展示的是可能性,而不是實用性。
因此,核心問題是:AI Agent 的「每小時」成本如何變化?
這裡的「每小時」成本,指的是使用 LLM 完成任務(以模型 50% 時間跨度為準)的財務成本,除以該時間跨度的長度。例如,Claude 4.1 Opus 的 50% 時間跨度是 2 小時——它能在 50% 的任務中成功完成人類軟體工程師需要 2 小時的工作。我們可以計算它執行此類任務的成本,除以 2,得出它從事這項工作的時薪。
大多數人對此幾乎一無所知。有些人認為每個任務的總成本維持不變,即使任務長度指數成長——這意味著時薪實際上在指數下降。其他人則認為總成本也在指數成長——畢竟我們已經看到使用尖端模型的成本急劇上升。更多人(包括我自己)完全不清楚 AI Agent 從事一小時軟體工程工作的成本究竟是多少——是幾分錢?幾美元?還是數百美元?AI Agent 的時薪不可能比人類還貴吧?
從 METR 圖表中挖掘洞察
幸運的是,METR 發布了一張能揭示 LLM Agent 每小時成本如何變化的圖表。這張圖表顯示效能如何隨成本增加而提升。成本指的是使用越來越多 token 來完成任務的成本(也因此使用越來越多計算資源)。
黃色曲線是人類在每項任務上的最佳表現。它平穩地向前向上延伸——要讓人類軟體工程師執行 8 小時任務,成本大約是執行 1 小時任務的 8 倍,這與線性關係一致。
其他顏色的曲線則是各種 LLM Agent 的表現。與人類不同的是,它們都呈現邊際報酬遞減:隨著計算資源增加,能達到的時間跨度最終會停滯並進入平原期。
甜蜜點:每個模型的最低時費
在這張雙對數圖上,每條常數時薪線都是斜率為 1 的直線。時薪越低,線就越靠左。對於每條曲線,我加入了一條與它相切的常數時薪線——那個切點就是該模型的甜蜜點(sweet spot),也就是模型達到的最佳時薪。
從圖表中可以觀察到:
- 人類軟體工程師最高時薪為 $120/小時
- AI Agent 的甜蜜點時薪從 $40/小時(o3)到 $0.40/小時(Grok 4 和 Sonnet 3.5)不等
這是相當大的範圍。模型之間的時間跨度差異約為 15 倍(無論以端點或甜蜜點判斷),但甜蜜點成本的差異高達 100 倍。
而且,這些數字還是模型的最佳時薪。在許多任務長度(包括接近高原期的部分),時薪要高出 10 到 100 倍。例如:
- Grok 4 在甜蜜點為 $0.40/小時,但在最終高原期開頭為 $13/小時
- GPT-5 處理約 45 分鐘任務時約 $13/小時,但處理 2 小時任務時為 $120/小時
- o3 在發揮 1.5 小時任務能力時,時薪實際高達 $350/小時——比人類還貴
花這麼多錢雇用一個有一半機率會失敗的 Agent,代價著實不低——尤其在失敗比沒嘗試更糟糕的場景中。
飽和點:高原期的代價
除了甜蜜點,還需要找到每條曲線的飽和點(saturation point)——也就是高原期開始的位置。我定義的標準是:斜率降至甜蜜點 1/10 的點。在這個點上,成本增加 10% 只能讓時間跨度增加 1%。
觀察這些飽和點,可以發現任務持續時間與成本之間存在弱但明確的正相關。而且,較高的任務持續時間對應較高的時薪(這些時薪是模型甜蜜點的最佳時薪)。
關鍵發現與結論
這項分析揭示了幾個重要事實:
成本正在指數成長的證據
- 達成特定時間跨度所需的成本正在指數成長
- 甚至最佳時薪本身也在上升
- 部分模型的時薪已接近人類水準
對 METR 趨勢的質疑
- METR 時間跨度趨勢可能部分是由不可持續成長的推理計算資源所驅動
- 「理論上可達成的時間跨度」與「經濟上可行的時間跨度」之間將出現分歧
- AI Agent 的實際應用將落後於 METR 時間跨度趨勢,而且落後幅度會越來越大
分析的局限性
當然,這項分析有其局限:
- 需要涵蓋更多、更具代表性的模型曲線
- 需要找到方法解決某些模型在最後關頭的「上揚」問題
- 需要驗證 OpenAI 模型的定價數據是否有問題
- 需要明確將時薪與發布日期繪製成圖
- 需要數值化確定趨勢線和相關係數
AI 的「一級方程式」困境
這些發現指向一個令人警惕的可能性:如果這種關係持續下去,預測何時能達到特定時間跨度將具有誤導性,因為模型在首次達到這些能力時,成本可能高得離譜。我們需要等待額外的時間,讓成本降至合理水準。
METR 的時間跨度趨勢或許顯示了技術可能性,但並不等同於經濟實用性——這正是「一級方程式」的比喻:展示極限性能,但不一定是日常可及的選擇。
對於產業決策者和投資人而言,這意味著:不能只根據「AI 何時能完成 X 工作」來做規劃,還必須問「AI 以合理成本完成 X 工作是何時」。這兩者之間的差距,可能比大多數人的直覺判斷要大得多。