Ternary Bonsai：1.58 Bits 的頂級智慧，撼動 AI 效率邊界

最近 AI 圈有一個安靜但劇烈的典範轉移正在發生——壓縮不只是為了省空間，而是變成一種競爭策略。PrismML 近期發表的 Ternary Bonsai 就是最好的例子：它用 {-1, 0, +1} 三個離散值表達所有模型權重，號稱 1.58 位元，卻能在多項標準基準測試中擊敗多個 16 位元對手。

什麼是「真正的」三元模型

市面上的所謂低精度模型，內部往往藏著 FP16 的逃生艙——某些層偷偷用高精度權重來彌補量化損失。但 Ternary Bonsai 不一樣。從 Embedding、Attention 層、MLP 到 LM Head，全部一致使用 1.58 位元表達，沒有任何高位元逃口。

每個權重被限制在 {-s, 0, +s} 三個狀態之一，編碼為 {-1, 0, +1}。每 128 個權重共享一個 FP16 的縮放因子（scale factor），在硬體資源與表示精度之間取得平衡。這個 group-wise 量化方案讓模型在不損失表達能力的情況下，將記憶體佔用壓到 FP16 的約九分之一。

三個規模，完整覆蓋部署階梯

Ternary Bonsai 提供三種規格：1.7B、4B、8B。這個設計策略很明確——讓開發者能根據目標硬體（從手機到工作站）選擇最適合的版本，而不是被迫在「極致壓縮」與「高效能」之間二元取一。

模型	記憶體佔用	平均基準分
Ternary Bonsai 8B	1.75 GB	75.5
1-bit Bonsai 8B	1.15 GB	70.5
Qwen3 8B（對比參考）	16.38 GB	略高

Ternary Bonsai 8B 在 MMLU Redux、MuSR、GSM8K、HumanEval+、IFEval、BFCLv3 等多項測試中均有競爭力表現，而且記憶體不到 Qwen3 8B 的九分之一。對比自家 1-bit 版本，分數提升約 5 點，額外代價僅 600 MB——這筆交易相當划算。

智慧密度：每 GB 的代價

PrismML 提出一個耐人尋味的指標：「智慧密度」——以每一 GB 記憶體所能產出的智慧（基準分）來衡量模型效率。在這個維度下，Ternary Bonsai 8B 的優勢更為明顯，遠遠甩開同參數量級的其他模型。這說明當 AI 部署走向邊緣裝置，壓縮不只是優化，而是核心競爭力。

速度與能耗：行動裝置也能跑

Ternary Bonsai 的效能數據同樣令人驚艷：

M4 Pro：82 toks/sec，是 16-bit 8B 模型的大約 5 倍速度，耗能僅 0.105 mWh/token
iPhone 17 Pro Max：27 toks/sec，耗能僅 0.132 mWh/token

能耗比同級 FP16 模型優化 3 到 4 倍。這個數字代表什麼？在手機上跑一個 8B 參數模型，過去是玩笑話，現在變成可落地的日常。

Apache 2.0 開源，生態系已就緒

Ternary Bonsai 模型權重現已開源，採用 Apache 2.0 License。對 Apple 生態系的使用者而言，模型可透過 MLX 原生運行於 Mac、iPhone、iPad，無需額外轉換工具鏈。完整技術文件與白皮書可從 GitHub 取得。

典範轉移：壓縮即策略

過去一年，模型壓縮從「不得已的取捨」變成「主動的設計選擇」。1-bit Bonsai 證明極致壓縮仍可產出商用等級模型；Ternary Bonsai 則證明稍微放寬約束，就能換來顯著的能力提升。兩者並非取代關係，而是覆蓋了不同的部署需求。

這條 Pareto 前緣仍在向左推移。當硬體限制不再是藉口，問題只剩下：要怎麼把更多的智慧，裝進更小的盒子裡？

Model: minimax/MiniMax-M2.7