Qwen3.6-35B-A3B：開源 Agentic 編碼的新里程碑

開源 AI 編碼的分水嶺

2026 年 4 月 16 日，阿里巴巴 Qwen 團隊正式開源 Qwen3.6-35B-A3B——這是繼 Qwen3.6-Plus 雲端版本之後，面向社群釋出的高效能 MoE（Mixture-of-Experts）模型。

這個模型的意義不只是「又一個開源 LLM」。它以 35B 總參數、每個 token 僅啟動 3B 參數的稀疏架構，在 SWE-bench Verified 拿下 73.4、Terminal-Bench 2.0 拿下 51.5 的成績，正面碰上 Gemma4-31B 這種全密集 31B 模型，並在多項 agentic coding 基準上大幅領先。

Qwen3.6-35B-A3B 證明了一件事：稀疏 MoE 架構在正確優化之後，可以用不到一成的推理算力，達到比密集大模型更強的程式碼理解與生成能力。

什麼是 MoE？為什麼重要

傳統密集模型 vs 稀疏 MoE

傳統語言模型對每個輸入 token 都會啟動所有參數，算力消耗與模型大小成正比。稀疏 MoE 則不同——它的路由機制（Router）會針對每個 token，只從數十個「專家模組」中選出幾個來啟動。

架構	每 token 使用參數	推理算力
傳統密集模型（35B）	35B（100%）	高
Qwen3.6-35B-A3B（MoE）	3B（約 8.6%）	極低

這意味著以相近的推理成本，MoE 模型可以在模型總參數中儲存遠多於同算力密集模型的知識量。Qwen3.6-35B-A3B 活躍參數僅 3B，知識容量卻來自 35B 的完整參數空間。

關鍵技術規格

規格	數值
總參數量	35B
每 token 活躍參數	3B
架構類型	稀疏 MoE
上下文長度	262,144 tokens
授權	Apache 2.0
多模態支援	圖片 + 影片理解
思維模式（Thinking Mode）	支援

效能評測：全面超越同規模競品

Agentic Coding 核心指標

在程式碼代理能力的關鍵基準上，Qwen3.6-35B-A3B 的表現令人印象深刻：

基準	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma4-31B	Qwen3.5-27B
SWE-bench Verified	73.4	70.0	52.0	75.0
SWE-bench Pro	49.5	44.6	35.7	51.2
Terminal-Bench 2.0	51.5	40.5	42.9	41.6
NL2Repo	29.4	20.5	15.5	27.3
QwenWebBench (Elo)	1397	978	1197	1068

值得注意的是，SWE-bench Verified 73.4 分讓 Qwen3.6-35B-A3B 直接進入前沿模型競技場，而 Terminal-Bench 2.0 的 51.5 分更比 Gemma4-31B 高出整整 20% 以上——後者是一個全密集的 31B 模型，每個 token 啟動的參數量是 Qwen3.6 的十倍以上。

視覺語言能力

Qwen3.6-35B-A3B 是原生多模態模型，視覺理解表現同樣出色。在部分基準上甚至超越 Claude Sonnet 4.5：

基準	Qwen3.6-35B-A3B	Claude Sonnet 4.5	Gemma4-31B
RealWorldQA	85.3	70.3	72.3
MMBench EN-DEV	92.8	88.3	90.9
RefCOCO (avg)	92.0	—	—
GPQA	86.0	—	84.3
AIME 2026	92.7	—	89.2

空間理解方面，RefCOCO 拿下 92.0、ODInW13 拿下 50.8，都顯示出超乎其活躍參數規模的強勁能力。

Agentic Coding：為多步驟任務而生

核心能力

Qwen3.6-35B-A3B 的設計重心是 agentic coding——讓 AI 在整個程式碼倉庫中自主完成複雜的軟體工程任務：

在大型倉庫中理解專案結構、依賴關係與架構
跨多個檔案與語言進行程式碼撰寫與修改
執行終端指令、互動測試、建構系統
對 bug 進行根因分析，並追蹤執行路徑
將複雜問題拆解成子任務，順序執行

Thinking Mode 保留機制

Qwen3.6 特別支援 Thinking Mode Preservation，讓模型在多步驟 agentic 工作流程中保留完整的推理上下文。這帶來三個關鍵優勢：

跨步驟的決策一致性更高
減少重複推理，降低 token 消耗
改善 KV cache 利用效率

工具呼叫整合

原生支援工具呼叫（Tool Calling），可無縫整合：

IDE 插件（Continue.dev、Cursor、VS Code Copilot）
自動化程式碼審查流水線
CI/CD 自動化測試與部署
文件自動生成

本地部署指南

Ollama（最快上手）

brew install ollama
ollama run qwen3.6:35b-a3b

適合 24GB Apple Silicon Mac，Ollama 會自動下載量化模型並管理 GPU 記憶體。

Hugging Face Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

SGLang 生產環境部署

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

硬體需求參考

精度	VRAM 需求	建議硬體
F16 完整精度	~72GB	2x A100 或高端工作站
8-bit 量化	~36GB	單張 A100 40GB
4-bit GGUF（Unsloth）	~18-20GB	RTX 4090 或 Mac 24GB

API 整合：多種接入方式

Alibaba Cloud Model Studio

模型在 API 中以 qwen3.6-flash 名稱提供，支援 OpenAI 相容協議與 Anthropic 協議。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ.get("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "請分析這段程式碼的效能瓶頸。"}],
    extra_body={"enable_thinking": True},
    stream=True
)

Claude Code 整合

Qwen API 支援 Anthropic 協議，可直接用 Claude Code 接入：

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

claude

Qwen Code 整合

npm install -g @qwen-code/qwen-code@latest
qwen

授權：Apache 2.0 真正開放

與許多標榜「開源」但有商用限制的模型不同，Qwen3.6-35B-A3B 採用 Apache 2.0 授權：

允許商業使用，無需付費或申請授權
可自由修改與再發布
包含專利授權
無使用量或使用者數量限制

這讓它成為目前商用條件最友善的前沿級開源模型之一。

取得模型

管道	連結
Hugging Face	Qwen/Qwen3.6-35B-A3B
Unsloth GGUF	unsloth/Qwen3.6-35B-A3B-GGUF
ModelScope	Qwen/Qwen3.6-35B-A3B
Ollama	`ollama run qwen3.6:35b-a3b`
Qwen Studio	chat.qwen.ai
GitHub	QwenLM/Qwen3.6

總結

Qwen3.6-35B-A3B 是稀疏 MoE 架構走向成熟的一個有力例證。它用 3B 的活躍算力，撬動了 35B 的知識容量，在 agentic coding 領域正面競爭 Gemma4-31B、Claude Sonnet 4.5 等前沿模型，並在多項關鍵指標上勝出。

對於需要本地部署、重視資料隱私、或尋找商用開源替代方案的開發者與團隊而言，這個模型值得立即評估。Qwen 團隊也表示 Qwen3.6 開源家族將持續擴展，後續還有更多模型釋出——這個開源生態的演進速度，正讓整個行業重新思考「前沿模型」的定義邊界。

參考資料