開源 AI 編碼的分水嶺
2026 年 4 月 16 日,阿里巴巴 Qwen 團隊正式開源 Qwen3.6-35B-A3B——這是繼 Qwen3.6-Plus 雲端版本之後,面向社群釋出的高效能 MoE(Mixture-of-Experts)模型。
這個模型的意義不只是「又一個開源 LLM」。它以 35B 總參數、每個 token 僅啟動 3B 參數的稀疏架構,在 SWE-bench Verified 拿下 73.4、Terminal-Bench 2.0 拿下 51.5 的成績,正面碰上 Gemma4-31B 這種全密集 31B 模型,並在多項 agentic coding 基準上大幅領先。
Qwen3.6-35B-A3B 證明了一件事:稀疏 MoE 架構在正確優化之後,可以用不到一成的推理算力,達到比密集大模型更強的程式碼理解與生成能力。
什麼是 MoE?為什麼重要
傳統密集模型 vs 稀疏 MoE
傳統語言模型對每個輸入 token 都會啟動所有參數,算力消耗與模型大小成正比。稀疏 MoE 則不同——它的路由機制(Router)會針對每個 token,只從數十個「專家模組」中選出幾個來啟動。
| 架構 | 每 token 使用參數 | 推理算力 |
|---|---|---|
| 傳統密集模型(35B) | 35B(100%) | 高 |
| Qwen3.6-35B-A3B(MoE) | 3B(約 8.6%) | 極低 |
這意味著以相近的推理成本,MoE 模型可以在模型總參數中儲存遠多於同算力密集模型的知識量。Qwen3.6-35B-A3B 活躍參數僅 3B,知識容量卻來自 35B 的完整參數空間。
關鍵技術規格
| 規格 | 數值 |
|---|---|
| 總參數量 | 35B |
| 每 token 活躍參數 | 3B |
| 架構類型 | 稀疏 MoE |
| 上下文長度 | 262,144 tokens |
| 授權 | Apache 2.0 |
| 多模態支援 | 圖片 + 影片理解 |
| 思維模式(Thinking Mode) | 支援 |
效能評測:全面超越同規模競品
Agentic Coding 核心指標
在程式碼代理能力的關鍵基準上,Qwen3.6-35B-A3B 的表現令人印象深刻:
| 基準 | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma4-31B | Qwen3.5-27B |
|---|---|---|---|---|
| SWE-bench Verified | 73.4 | 70.0 | 52.0 | 75.0 |
| SWE-bench Pro | 49.5 | 44.6 | 35.7 | 51.2 |
| Terminal-Bench 2.0 | 51.5 | 40.5 | 42.9 | 41.6 |
| NL2Repo | 29.4 | 20.5 | 15.5 | 27.3 |
| QwenWebBench (Elo) | 1397 | 978 | 1197 | 1068 |
值得注意的是,SWE-bench Verified 73.4 分讓 Qwen3.6-35B-A3B 直接進入前沿模型競技場,而 Terminal-Bench 2.0 的 51.5 分更比 Gemma4-31B 高出整整 20% 以上——後者是一個全密集的 31B 模型,每個 token 啟動的參數量是 Qwen3.6 的十倍以上。
視覺語言能力
Qwen3.6-35B-A3B 是原生多模態模型,視覺理解表現同樣出色。在部分基準上甚至超越 Claude Sonnet 4.5:
| 基準 | Qwen3.6-35B-A3B | Claude Sonnet 4.5 | Gemma4-31B |
|---|---|---|---|
| RealWorldQA | 85.3 | 70.3 | 72.3 |
| MMBench EN-DEV | 92.8 | 88.3 | 90.9 |
| RefCOCO (avg) | 92.0 | — | — |
| GPQA | 86.0 | — | 84.3 |
| AIME 2026 | 92.7 | — | 89.2 |
空間理解方面,RefCOCO 拿下 92.0、ODInW13 拿下 50.8,都顯示出超乎其活躍參數規模的強勁能力。
Agentic Coding:為多步驟任務而生
核心能力
Qwen3.6-35B-A3B 的設計重心是 agentic coding——讓 AI 在整個程式碼倉庫中自主完成複雜的軟體工程任務:
- 在大型倉庫中理解專案結構、依賴關係與架構
- 跨多個檔案與語言進行程式碼撰寫與修改
- 執行終端指令、互動測試、建構系統
- 對 bug 進行根因分析,並追蹤執行路徑
- 將複雜問題拆解成子任務,順序執行
Thinking Mode 保留機制
Qwen3.6 特別支援 Thinking Mode Preservation,讓模型在多步驟 agentic 工作流程中保留完整的推理上下文。這帶來三個關鍵優勢:
- 跨步驟的決策一致性更高
- 減少重複推理,降低 token 消耗
- 改善 KV cache 利用效率
工具呼叫整合
原生支援工具呼叫(Tool Calling),可無縫整合:
- IDE 插件(Continue.dev、Cursor、VS Code Copilot)
- 自動化程式碼審查流水線
- CI/CD 自動化測試與部署
- 文件自動生成
本地部署指南
Ollama(最快上手)
brew install ollama
ollama run qwen3.6:35b-a3b
適合 24GB Apple Silicon Mac,Ollama 會自動下載量化模型並管理 GPU 記憶體。
Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
SGLang 生產環境部署
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
硬體需求參考
| 精度 | VRAM 需求 | 建議硬體 |
|---|---|---|
| F16 完整精度 | ~72GB | 2x A100 或高端工作站 |
| 8-bit 量化 | ~36GB | 單張 A100 40GB |
| 4-bit GGUF(Unsloth) | ~18-20GB | RTX 4090 或 Mac 24GB |
API 整合:多種接入方式
Alibaba Cloud Model Studio
模型在 API 中以 qwen3.6-flash 名稱提供,支援 OpenAI 相容協議與 Anthropic 協議。
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ.get("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3.6-flash",
messages=[{"role": "user", "content": "請分析這段程式碼的效能瓶頸。"}],
extra_body={"enable_thinking": True},
stream=True
)
Claude Code 整合
Qwen API 支援 Anthropic 協議,可直接用 Claude Code 接入:
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude
Qwen Code 整合
npm install -g @qwen-code/qwen-code@latest
qwen
授權:Apache 2.0 真正開放
與許多標榜「開源」但有商用限制的模型不同,Qwen3.6-35B-A3B 採用 Apache 2.0 授權:
- 允許商業使用,無需付費或申請授權
- 可自由修改與再發布
- 包含專利授權
- 無使用量或使用者數量限制
這讓它成為目前商用條件最友善的前沿級開源模型之一。
取得模型
| 管道 | 連結 |
|---|---|
| Hugging Face | Qwen/Qwen3.6-35B-A3B |
| Unsloth GGUF | unsloth/Qwen3.6-35B-A3B-GGUF |
| ModelScope | Qwen/Qwen3.6-35B-A3B |
| Ollama | ollama run qwen3.6:35b-a3b |
| Qwen Studio | chat.qwen.ai |
| GitHub | QwenLM/Qwen3.6 |
總結
Qwen3.6-35B-A3B 是稀疏 MoE 架構走向成熟的一個有力例證。它用 3B 的活躍算力,撬動了 35B 的知識容量,在 agentic coding 領域正面競爭 Gemma4-31B、Claude Sonnet 4.5 等前沿模型,並在多項關鍵指標上勝出。
對於需要本地部署、重視資料隱私、或尋找商用開源替代方案的開發者與團隊而言,這個模型值得立即評估。Qwen 團隊也表示 Qwen3.6 開源家族將持續擴展,後續還有更多模型釋出——這個開源生態的演進速度,正讓整個行業重新思考「前沿模型」的定義邊界。
參考資料