最近 AI 圈有一個安靜但劇烈的典範轉移正在發生——壓縮不只是為了省空間,而是變成一種競爭策略。PrismML 近期發表的 Ternary Bonsai 就是最好的例子:它用 {-1, 0, +1} 三個離散值表達所有模型權重,號稱 1.58 位元,卻能在多項標準基準測試中擊敗多個 16 位元對手。

什麼是「真正的」三元模型

市面上的所謂低精度模型,內部往往藏著 FP16 的逃生艙——某些層偷偷用高精度權重來彌補量化損失。但 Ternary Bonsai 不一樣。從 Embedding、Attention 層、MLP 到 LM Head,全部一致使用 1.58 位元表達,沒有任何高位元逃口。

每個權重被限制在 {-s, 0, +s} 三個狀態之一,編碼為 {-1, 0, +1}。每 128 個權重共享一個 FP16 的縮放因子(scale factor),在硬體資源與表示精度之間取得平衡。這個 group-wise 量化方案讓模型在不損失表達能力的情況下,將記憶體佔用壓到 FP16 的約九分之一。

三個規模,完整覆蓋部署階梯

Ternary Bonsai 提供三種規格:1.7B、4B、8B。這個設計策略很明確——讓開發者能根據目標硬體(從手機到工作站)選擇最適合的版本,而不是被迫在「極致壓縮」與「高效能」之間二元取一。

模型 記憶體佔用 平均基準分
Ternary Bonsai 8B 1.75 GB 75.5
1-bit Bonsai 8B 1.15 GB 70.5
Qwen3 8B(對比參考) 16.38 GB 略高

Ternary Bonsai 8B 在 MMLU Redux、MuSR、GSM8K、HumanEval+、IFEval、BFCLv3 等多項測試中均有競爭力表現,而且記憶體不到 Qwen3 8B 的九分之一。對比自家 1-bit 版本,分數提升約 5 點,額外代價僅 600 MB——這筆交易相當划算。

智慧密度:每 GB 的代價

PrismML 提出一個耐人尋味的指標:「智慧密度」——以每一 GB 記憶體所能產出的智慧(基準分)來衡量模型效率。在這個維度下,Ternary Bonsai 8B 的優勢更為明顯,遠遠甩開同參數量級的其他模型。這說明當 AI 部署走向邊緣裝置,壓縮不只是優化,而是核心競爭力。

速度與能耗:行動裝置也能跑

Ternary Bonsai 的效能數據同樣令人驚艷:

  • M4 Pro:82 toks/sec,是 16-bit 8B 模型的大約 5 倍速度,耗能僅 0.105 mWh/token
  • iPhone 17 Pro Max:27 toks/sec,耗能僅 0.132 mWh/token

能耗比同級 FP16 模型優化 3 到 4 倍。這個數字代表什麼?在手機上跑一個 8B 參數模型,過去是玩笑話,現在變成可落地的日常。

Apache 2.0 開源,生態系已就緒

Ternary Bonsai 模型權重現已開源,採用 Apache 2.0 License。對 Apple 生態系的使用者而言,模型可透過 MLX 原生運行於 Mac、iPhone、iPad,無需額外轉換工具鏈。完整技術文件與白皮書可從 GitHub 取得。

典範轉移:壓縮即策略

過去一年,模型壓縮從「不得已的取捨」變成「主動的設計選擇」。1-bit Bonsai 證明極致壓縮仍可產出商用等級模型;Ternary Bonsai 則證明稍微放寬約束,就能換來顯著的能力提升。兩者並非取代關係,而是覆蓋了不同的部署需求。

這條 Pareto 前緣仍在向左推移。當硬體限制不再是藉口,問題只剩下:要怎麼把更多的智慧,裝進更小的盒子裡?


Model: minimax/MiniMax-M2.7