開源 AI 編碼的分水嶺

2026 年 4 月 16 日,阿里巴巴 Qwen 團隊正式開源 Qwen3.6-35B-A3B——這是繼 Qwen3.6-Plus 雲端版本之後,面向社群釋出的高效能 MoE(Mixture-of-Experts)模型。

這個模型的意義不只是「又一個開源 LLM」。它以 35B 總參數、每個 token 僅啟動 3B 參數的稀疏架構,在 SWE-bench Verified 拿下 73.4、Terminal-Bench 2.0 拿下 51.5 的成績,正面碰上 Gemma4-31B 這種全密集 31B 模型,並在多項 agentic coding 基準上大幅領先。

Qwen3.6-35B-A3B 證明了一件事:稀疏 MoE 架構在正確優化之後,可以用不到一成的推理算力,達到比密集大模型更強的程式碼理解與生成能力。

什麼是 MoE?為什麼重要

傳統密集模型 vs 稀疏 MoE

傳統語言模型對每個輸入 token 都會啟動所有參數,算力消耗與模型大小成正比。稀疏 MoE 則不同——它的路由機制(Router)會針對每個 token,只從數十個「專家模組」中選出幾個來啟動。

架構 每 token 使用參數 推理算力
傳統密集模型(35B) 35B(100%)
Qwen3.6-35B-A3B(MoE) 3B(約 8.6%) 極低

這意味著以相近的推理成本,MoE 模型可以在模型總參數中儲存遠多於同算力密集模型的知識量。Qwen3.6-35B-A3B 活躍參數僅 3B,知識容量卻來自 35B 的完整參數空間。

關鍵技術規格

規格 數值
總參數量 35B
每 token 活躍參數 3B
架構類型 稀疏 MoE
上下文長度 262,144 tokens
授權 Apache 2.0
多模態支援 圖片 + 影片理解
思維模式(Thinking Mode) 支援

效能評測:全面超越同規模競品

Agentic Coding 核心指標

在程式碼代理能力的關鍵基準上,Qwen3.6-35B-A3B 的表現令人印象深刻:

基準 Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma4-31B Qwen3.5-27B
SWE-bench Verified 73.4 70.0 52.0 75.0
SWE-bench Pro 49.5 44.6 35.7 51.2
Terminal-Bench 2.0 51.5 40.5 42.9 41.6
NL2Repo 29.4 20.5 15.5 27.3
QwenWebBench (Elo) 1397 978 1197 1068

值得注意的是,SWE-bench Verified 73.4 分讓 Qwen3.6-35B-A3B 直接進入前沿模型競技場,而 Terminal-Bench 2.0 的 51.5 分更比 Gemma4-31B 高出整整 20% 以上——後者是一個全密集的 31B 模型,每個 token 啟動的參數量是 Qwen3.6 的十倍以上。

視覺語言能力

Qwen3.6-35B-A3B 是原生多模態模型,視覺理解表現同樣出色。在部分基準上甚至超越 Claude Sonnet 4.5:

基準 Qwen3.6-35B-A3B Claude Sonnet 4.5 Gemma4-31B
RealWorldQA 85.3 70.3 72.3
MMBench EN-DEV 92.8 88.3 90.9
RefCOCO (avg) 92.0
GPQA 86.0 84.3
AIME 2026 92.7 89.2

空間理解方面,RefCOCO 拿下 92.0、ODInW13 拿下 50.8,都顯示出超乎其活躍參數規模的強勁能力。

Agentic Coding:為多步驟任務而生

核心能力

Qwen3.6-35B-A3B 的設計重心是 agentic coding——讓 AI 在整個程式碼倉庫中自主完成複雜的軟體工程任務:

  • 在大型倉庫中理解專案結構、依賴關係與架構
  • 跨多個檔案與語言進行程式碼撰寫與修改
  • 執行終端指令、互動測試、建構系統
  • 對 bug 進行根因分析,並追蹤執行路徑
  • 將複雜問題拆解成子任務,順序執行

Thinking Mode 保留機制

Qwen3.6 特別支援 Thinking Mode Preservation,讓模型在多步驟 agentic 工作流程中保留完整的推理上下文。這帶來三個關鍵優勢:

  • 跨步驟的決策一致性更高
  • 減少重複推理,降低 token 消耗
  • 改善 KV cache 利用效率

工具呼叫整合

原生支援工具呼叫(Tool Calling),可無縫整合:

  • IDE 插件(Continue.dev、Cursor、VS Code Copilot)
  • 自動化程式碼審查流水線
  • CI/CD 自動化測試與部署
  • 文件自動生成

本地部署指南

Ollama(最快上手)

brew install ollama
ollama run qwen3.6:35b-a3b

適合 24GB Apple Silicon Mac,Ollama 會自動下載量化模型並管理 GPU 記憶體。

Hugging Face Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

SGLang 生產環境部署

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

硬體需求參考

精度 VRAM 需求 建議硬體
F16 完整精度 ~72GB 2x A100 或高端工作站
8-bit 量化 ~36GB 單張 A100 40GB
4-bit GGUF(Unsloth) ~18-20GB RTX 4090 或 Mac 24GB

API 整合:多種接入方式

Alibaba Cloud Model Studio

模型在 API 中以 qwen3.6-flash 名稱提供,支援 OpenAI 相容協議與 Anthropic 協議。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ.get("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "請分析這段程式碼的效能瓶頸。"}],
    extra_body={"enable_thinking": True},
    stream=True
)

Claude Code 整合

Qwen API 支援 Anthropic 協議,可直接用 Claude Code 接入:

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

claude

Qwen Code 整合

npm install -g @qwen-code/qwen-code@latest
qwen

授權:Apache 2.0 真正開放

與許多標榜「開源」但有商用限制的模型不同,Qwen3.6-35B-A3B 採用 Apache 2.0 授權

  • 允許商業使用,無需付費或申請授權
  • 可自由修改與再發布
  • 包含專利授權
  • 無使用量或使用者數量限制

這讓它成為目前商用條件最友善的前沿級開源模型之一。

取得模型

管道 連結
Hugging Face Qwen/Qwen3.6-35B-A3B
Unsloth GGUF unsloth/Qwen3.6-35B-A3B-GGUF
ModelScope Qwen/Qwen3.6-35B-A3B
Ollama ollama run qwen3.6:35b-a3b
Qwen Studio chat.qwen.ai
GitHub QwenLM/Qwen3.6

總結

Qwen3.6-35B-A3B 是稀疏 MoE 架構走向成熟的一個有力例證。它用 3B 的活躍算力,撬動了 35B 的知識容量,在 agentic coding 領域正面競爭 Gemma4-31B、Claude Sonnet 4.5 等前沿模型,並在多項關鍵指標上勝出。

對於需要本地部署、重視資料隱私、或尋找商用開源替代方案的開發者與團隊而言,這個模型值得立即評估。Qwen 團隊也表示 Qwen3.6 開源家族將持續擴展,後續還有更多模型釋出——這個開源生態的演進速度,正讓整個行業重新思考「前沿模型」的定義邊界。


參考資料