Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦

by Rain Chu | 5 月 13, 2026 | AI, Ollama, 模型

最新的 Qwen 3.6，在 Ollama 上的表現，可以說是目前「本地 Coding 模型」中非常強勢的一個系列。

如果你正在使用：

NVIDIA Spark
RTX 顯卡
Ollama
OpenWebUI
Continue
Claude Code
OpenHands
Hermes Agent
Cursor 類工具
Apple

那麼 Qwen 3.6 幾乎一定值得研究。

這篇文章會完整解析：

Qwen 3.6 每個版本差異
27B 與 35B 的差異
MXFP8、NVFP4、BF16 是什麼
哪個最適合寫程式
NVIDIA Spark 最推薦的配置
Ollama 部署建議
多人 SaaS / AI Agent 最佳實務

什麼是 Qwen 3.6？

Qwen 是阿里巴巴推出的大型語言模型（LLM）系列。

最新的 Qwen 3.6，官方特別強調：

Agentic Coding
Repository-level Reasoning
長 Context 推理
Thinking Preservation

也就是說：

它不只是會寫程式，而是開始能理解「整個專案」。

根據官方與 Ollama 頁面資訊，Qwen 3.6 在以下方面有明顯提升：

前端工作流理解
多檔案推理
AI Agent Tool Calling
長上下文理解
歷史推理保留
Repository 級別程式分析

為什麼 Qwen 3.6 很適合 Ollama？

Qwen 3.6 最大特色之一：

就是對本地部署非常友善。

目前 Ollama 已提供大量版本：

27B
35B-A3B
Coding 版本
Vision 版本
MXFP8
NVFP4
BF16
MLX

而且幾乎都支援：

256K Context
長文本推理
本地 AI Agent
Coding Workflow

Qwen 3.6 各版本意思解析

qwen3.6:latest

這是官方最新預設版本。

特色：

通用型
支援圖片
適合聊天與分析
多模態能力

適合：

OpenWebUI
AI 助理
OCR
圖片分析

但：

不是最強的 Coding 版本。

qwen3.6:27b

27B = 270億參數。

這是目前非常熱門的甜蜜點。

優點：

Coding 能力很強
推理速度快
VRAM 壓力較低
多人共享容易

非常適合：

Continue
Claude Code
VSCode AI
Agent Workflow
本地 Copilot

qwen3.6:35b

35B = 350億參數。

這類模型：

推理能力更強。

尤其在：

大型專案理解
架構設計
Refactor
多檔案分析

會比 27B 更好。

但缺點：

更吃 VRAM
速度較慢
成本較高

什麼是 Coding 版本？

例如：

qwen3.6:27b-coding-mxfp8
qwen3.6:35b-a3b-coding-nvfp4

這些是：

專門針對寫程式優化的模型。

相較一般聊天模型：

它們更擅長：

Python
TypeScript
Go
Rust
Docker
Shell
Kubernetes
Debug
Refactor
AI Agent Tool Calling

官方也特別提到：

Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。

MXFP8、NVFP4、BF16 是什麼？

很多人看到：

MXFP8
NVFP4
BF16

會很混亂。

其實這些都是：

「量化格式」。

MXFP8

例如：

qwen3.6:27b-coding-mxfp8

這是 NVIDIA 新世代 FP8 格式。

特色：

品質高
VRAM 使用合理
推理速度快
非常適合 NVIDIA GPU

目前很多人認為：

MXFP8 是本地 AI Coding 的最佳甜蜜點。

尤其適合：

NVIDIA Spark
RTX 4090
RTX 5090
多 Agent Workflow

NVFP4

例如：

qwen3.6:27b-coding-nvfp4

這是 NVIDIA 的 4-bit 浮點量化格式。

特色：

更省 VRAM
更快
可多人共享
吞吐量高

但：

推理品質會稍微下降。

比較適合：

SaaS 平台
多人 AI IDE
高併發 Agent

目前學術研究也開始針對 NVFP4 做最佳化。

BF16

例如：

qwen3.6:27b-coding-bf16

這幾乎是：

接近原始精度。

優點：

品質最高
reasoning 最穩
hallucination 較少

缺點：

超級吃 VRAM
非常耗記憶體
多人共享困難

適合：

單人高品質開發
研究用途
極限推理

MLX 是什麼？

MLX 是 Apple Silicon 專用。

例如：

M1
M2
M3
M4

什麼是 A3B？

例如：

qwen3.6:35b-a3b-coding-mxfp8

這代表：

MoE（Mixture of Experts）架構。

意思是：

模型總參數很大，但每次只啟用部分專家。

優點：

更聰明
更快
成本更低
推理效率高

官方指出：

Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters，但依然能超越部分大型 Dense 模型。

NVIDIA Spark 最推薦哪個？

如果你的環境是：

NVIDIA Spark
CUDA 13
128GB RAM
Ollama
OpenWebUI
Continue
Claude Code
OpenHands

那我目前最推薦：

🥇 最推薦：qwen3.6:27b-coding-mxfp8

推薦原因：

Coding 非常強
推理速度快
VRAM 不容易爆
Agent 很穩
長 Context 表現好
本地部署平衡最佳

這是目前真正的：

「Production Sweet Spot」。

🥈 高階推理推薦：qwen3.6:35b-a3b-coding-mxfp8

適合：

AI Agent
大型專案
架構設計
多 Repo 分析

優點：

reasoning 更強
repository 理解更強
複雜任務更穩

缺點：

比較慢
VRAM 需求更高

🥉 多人 SaaS 推薦：qwen3.6:27b-coding-nvfp4

適合：

多人共享
SaaS
AI IDE
高併發 Agent

優點：

非常省 VRAM
吞吐量高
可同時服務多人

但：

品質會略低於 MXFP8。

我自己的實戰看法

如果你是：

「真正要拿來工作」。

我目前認為：

Qwen 3.6 已經開始接近：

「本地版 Claude Code」。

尤其：

27B Coding MXFP8。

真的已經非常強。

它最大的優勢不是單純寫程式。

而是：

能理解整個 Repo
能做 Agent 工作流
能做長 Context reasoning
能做 Tool Calling
能理解大型專案

這跟以前單純「補程式碼」的模型完全不同。

Ollama 部署建議

安裝模型

ollama pull qwen3.6:27b-coding-mxfp8

執行模型

ollama run qwen3.6:27b-coding-mxfp8

開放 API

export OLLAMA_HOST=0.0.0.0:11434

NVIDIA Spark 最佳化建議

建議環境變數：

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"

適合搭配的工具

Qwen 3.6 很適合：

Continue
Claude Code
OpenHands
Hermes Agent
OpenWebUI
Cursor 類工具
Browser-use
AI Agent Workflow

結論

如果你現在想打造：

本地 AI Coding 環境
AI Agent 平台
多人 AI IDE
本地 Claude Code
Ollama SaaS

那麼：

Qwen 3.6 幾乎是目前最值得研究的一條路。

尤其：

qwen3.6:27b-coding-mxfp8

我認為：

這是目前 NVIDIA Spark 上：

最平衡、最實用、最值得長期使用的本地 Coding 模型之一。

參考資料

Nvidia Spark Ollama 的滿血設定

Gemma 4 越獄版完整解析：解鎖 AI 限制、釋放 31B 模型最大能力！

by Rain Chu | 4 月 14, 2026 | AI, google, 模型

在 AI 模型快速演進的時代，由 Google 推出的 Gemma 系列模型 一直備受關注，但對許多進階開發者來說，官方版本的限制（安全策略、回應過濾）往往成為發揮模型潛力的瓶頸，有了越獄版本，模型就再也不會回答你說「這個問題我不能回答了」。

這篇文章將帶你深入了解——
👉 越獄版本 Gemma 4（Gemma-4-31B-JANG_4M-CRACK）是什麼？
👉 它如何突破限制？是否值得使用？
👉 在本地 AI 架構（如 Ollama）中的實戰價值

🧠 什麼是 Gemma 4 越獄版？

所謂「越獄版」或「Crack 版」，指的是：

👉 移除或弱化模型原本的安全限制（alignment / guardrails）

這個版本來自 Hugging Face 上的開源模型：
👉 Hugging Face 社群釋出的
Gemma-4-31B-JANG_4M-CRACK

並可透過：
👉 Ollama 直接部署本地推論

⚙️ 越獄版 vs 官方版差異

項目	官方 Gemma 4	越獄版 Gemma 4
安全限制	高（嚴格過濾）	低（大幅放寬）
回答自由度	中	非常高
敏感內容處理	拒答或模糊	直接回答
適合用途	商業應用	研究 / 測試 / 私有 AI
風險	低	高

💣 為什麼有人需要「越獄模型」？

對你這種在做 AI Agent / 本地 LLM 架構的人來說，關鍵原因只有一個：

👉「控制權」

1️⃣ 做 AI Agent（LangChain / AutoGen）

官方模型：常被拒答
越獄模型：可完整執行任務

👉 尤其是：

自動寫程式
資料抓取
系統操作

🧪 越獄版的核心改動（技術面）

這類模型通常做了以下處理：

🔹 1. 去除 RLHF 對齊限制

移除「拒答機制」
降低安全分類器權重

🔹 2. 訓練資料調整（JANG_4M）

加入大量 unrestricted instruction data
強化「服從 prompt」能力

🔹 3. Prompt Injection 抗性降低

👉 反而變成「完全服從」

🚀 在 Ollama 中部署

你可以直接用：

ollama run SiliconBasedWorld/Gemma-4-31B-JANG_4M-CRACK

⚠️ 建議設定（for 128G）

export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_FLASH_ATTENTION=1

Hermes Agent 完整實測：自我進化 AI Agent 架構，全面取代 OpenClaw！ – 雨

如何使用 Groq API 快速測試和部署大型語言模型

by Rain Chu | 3 月 18, 2025 | AI, API

Groq 是一家擁有高效能硬體運算的公司，提供大型語言模型（LLM）的推理運算提供加速解決方案，他們的硬體相較於傳統 GPU，更加快速，並且支援多種主流開源模型，包括 Llama 3、Mistral 等。

Groq API 的主要特色

1. 提供 Playground 供快速測試

為了讓開發者能夠直觀地體驗和測試模型，Groq 提供了線上 Playground。使用者可以在此平台上直接輸入指令或問題，立即獲得模型的回應，無需進行繁瑣的設定或部署。

2. 詳細的 API 文件

Groq 提供了詳細且易於理解的 API 文件，涵蓋從基本使用到進階功能的各種說明，協助開發者快速上手並整合到自己的專案中。

3. 高速反應能力

得益於 Groq 的硬體架構，API 的反應速度極快，能夠即時處理大型語言模型的推理需求，提升使用者體驗。

如何開始使用 Groq API

註冊並獲取 API 金鑰：
- 前往 Groq 官方網站，點擊「Login」或「Get API Key」，按照提示完成註冊並獲取 API 金鑰。
選擇開發環境並調用 API：
- Python：使用 OpenAI 兼容的客戶端調用 Groq 提供的模型。

import openai

openai.api_key = 'YOUR_GROQ_API_KEY'
openai.api_base = 'https://api.groq.com/openai/v1'

response = openai.ChatCompletion.create(
    model="groq/llama3-70b-8192",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "請介紹一下 Groq API 的特色。"}
    ]
)

print(response.choices[0].message['content'])

其他語言：Groq 的 API 兼容 OpenAI 的接口，因此在其他編程語言中，只需將 API 基礎 URL 更改為 https://api.groq.com/openai/v1，並使用您的 Groq API 金鑰即可。

參考資料

Flowith：免費無需邀請碼的最強 AI 自動化工具

如何在 NVIDIA 平台上免費使用 DeepSeek R1 模型

Manus 沒邀請碼怎麼辦？用 OpenManus 本地免費部署 Ollama 模型，三分鐘搞定

by Rain Chu | 3 月 17, 2025 | AI, Chat, Ollama, 模型

🚀 1. 本地端完美對接 Ollama AI 模型

OpenManus 最大的亮點在於能與目前最流行的 Ollama 本地端 AI 大模型平台進行完美整合。

Ollama 是一個輕量、高效的 AI 模型管理工具，讓你可以輕鬆在自己的電腦上運行各種強大的大模型（如 Llama3、Qwen、DeepSeek 系列模型等）。
OpenManus 透過 Ollama API 與這些模型無縫互動，你能輕易在本地體驗到媲美線上服務的智慧功能，並保護個人隱私。

💻 2. 跨平台支援 Windows、Mac、Linux

無論你使用哪個平台，OpenManus 都有完整的跨平台支援，讓你輕鬆安裝與運行：

Windows 用戶可透過 Conda 或 Docker 快速部署。
macOS 用戶可以使用 Homebrew 或直接透過終端機運行。
Linux 用戶則能自由選擇 Docker 或直接透過原生方式安裝。

🎯 3. 無需邀請碼，即裝即用！

不同於原始封閉的 Manus 需要透過邀請碼才能使用，OpenManus 堅持完全開源與自由的精神。
無須註冊、無須邀請碼，直接部署到自己的電腦，立即開始使用，毫無限制，這就是開源社群給予大家最棒的禮物。

如何快速部署 OpenManus？（以 Windows 為例）

只需幾個簡單步驟，即可享受本地端 AI 大模型：

建立 Conda 環境：

conda create -n openmanus python=3.12
conda activate openmanus

Git OpenManus 專案：

git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus

安裝所需依賴：

pip install -r requirements.txt

修改設定檔（config.toml）：

cp config/config.example.toml config/config.toml

config.toml的內容如下，可以參考後修改

# Global LLM configuration
#[llm]
# model = "claude-3-7-sonnet-20250219"        # The LLM model to use
# base_url = "https://api.anthropic.com/v1/"  # API endpoint URL
# api_key = "YOUR_API_KEY"                    # Your API key
# max_tokens = 8192                           # Maximum number of tokens in the response
# temperature = 0.0                           # Controls randomness

# [llm] #AZURE OPENAI:
# api_type= 'azure'
# model = "YOUR_MODEL_NAME" #"gpt-4o-mini"
# base_url = "{YOUR_AZURE_ENDPOINT.rstrip('/')}/openai/deployments/{AZURE_DEPOLYMENT_ID}"
# api_key = "AZURE API KEY"
# max_tokens = 8096
# temperature = 0.0
# api_version="AZURE API VERSION" #"2024-08-01-preview"

[llm] #OLLAMA:
api_type = 'ollama'
model = "llama3.2"
base_url = "http://localhost:11434/v1"
api_key = "ollama"
max_tokens = 4096
temperature = 0.0

# Optional configuration for specific LLM models
#[llm.vision]
#model = "claude-3-7-sonnet-20250219"        # The vision model to use
#base_url = "https://api.anthropic.com/v1/"  # API endpoint URL for vision model
#api_key = "YOUR_API_KEY"                    # Your API key for vision model
#max_tokens = 8192                           # Maximum number of tokens in the response
#temperature = 0.0                           # Controls randomness for vision model

[llm.vision] #OLLAMA VISION:
api_type = 'ollama'
model = "llama3.2-vision"
base_url = "http://localhost:11434/v1"
api_key = "ollama"
max_tokens = 4096
temperature = 0.0

# Optional configuration for specific browser configuration
# [browser]
# Whether to run browser in headless mode (default: false)
#headless = false
# Disable browser security features (default: true)
#disable_security = true
# Extra arguments to pass to the browser
#extra_chromium_args = []
# Path to a Chrome instance to use to connect to your normal browser
# e.g. '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'
#chrome_instance_path = ""
# Connect to a browser instance via WebSocket
#wss_url = ""
# Connect to a browser instance via CDP
#cdp_url = ""

# Optional configuration, Proxy settings for the browser
# [browser.proxy]
# server = "http://proxy-server:port"
# username = "proxy-username"
# password = "proxy-password"

# Optional configuration, Search settings.
# [search]
# Search engine for agent to use. Default is "Google", can be set to "Baidu" or "DuckDuckGo".
# engine = "Google"

啟動 OpenManus 服務：

python main.py

之後打開瀏覽器就可以了

測試 OpenManus ：

可以輸入請他使用瀏覽器看某一個網站，並且執行SEO策略

打開 https://rain.tips/ 並且給予SEO的建議，並且把建議存放在桌面上.txt的文件

補充資料

Github

GraphRAG 使用本地端的 Ollama

GraphRAG與我踩過的坑

OpenRouter：輕鬆接入多種大型語言模型的統一平台

by Rain Chu | 2 月 23, 2025 | AI, 程式開發

OpenRouter 是一個統一的大型語言模型（LLM）API 服務平台，可以讓使用者透過單一介面訪問多種大型語言模型。

主要特點：

多模型支援： OpenRouter 集成了多種預訓練模型，如 GPT-4、Gemini、Claude、DALL-E 等，按需求選擇適合的模型。
易於集成： 提供統一的 API 介面，方便與現有系統整合，無需自行部署和維護模型。
成本效益： 透過 API 調用，使用者無需購買昂貴的 GPU 伺服器，降低了硬體成本。

使用方法：

註冊帳號： 使用 Google 帳號即可快速註冊 OpenRouter。
選擇模型： 在平台上瀏覽並選擇適合的模型，部分模型提供免費使用。
調用 API： 使用統一的 API 介面，將選定的模型整合到您的應用中。

Cline 整合

OpenRouter 與 Cline 的整合為開發者提供了強大的 AI 編程體驗，Cline 是一款集成於 VSCode 的 AI 編程助手，支援多種大型語言模型（LLM），如 OpenAI、Anthropic、Mistral 等，透過 OpenRouter，Cline 能夠統一調用這些模型，簡化了不同模型之間的切換和管理，使用者只需在 Cline 的設定中選擇 OpenRouter 作為 API 提供者，並輸入相應的 API 金鑰，即可開始使用多種模型進行開發。這種整合不僅提升了開發效率，還降低了使用多模型的技術門檻。

DeepSeek R1

OpenRouter 現在也支援 DeepSeek R1 模型，DeepSeek R1 是一款高性能的開源 AI 推理模型，具有強大的數學、編程和自然語言推理能力。透過 OpenRouter，開發者可以在 Cline 中輕鬆調用 DeepSeek R1 模型，享受其強大的推理能力。這進一步豐富了開發者的工具選擇，讓他們能夠根據項目需求選擇最適合的模型。

Aider Chat-邊聊邊寫程式

Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦

什麼是 Qwen 3.6？

為什麼 Qwen 3.6 很適合 Ollama？

Qwen 3.6 各版本意思解析

qwen3.6:latest

qwen3.6:27b

qwen3.6:35b

什麼是 Coding 版本？

MXFP8、NVFP4、BF16 是什麼？

MXFP8

NVFP4

BF16

MLX 是什麼？

什麼是 A3B？

NVIDIA Spark 最推薦哪個？

🥇 最推薦：qwen3.6:27b-coding-mxfp8

🥈 高階推理推薦：qwen3.6:35b-a3b-coding-mxfp8

🥉 多人 SaaS 推薦：qwen3.6:27b-coding-nvfp4

我自己的實戰看法

Ollama 部署建議

安裝模型

執行模型

開放 API

NVIDIA Spark 最佳化建議

適合搭配的工具

結論

qwen3.6:27b-coding-mxfp8

Gemma 4 越獄版完整解析：解鎖 AI 限制、釋放 31B 模型最大能力！

🧠 什麼是 Gemma 4 越獄版？

⚙️ 越獄版 vs 官方版差異

💣 為什麼有人需要「越獄模型」？

👉「控制權」

1️⃣ 做 AI Agent（LangChain / AutoGen）

🧪 越獄版的核心改動（技術面）

🔹 1. 去除 RLHF 對齊限制

🔹 2. 訓練資料調整（JANG_4M）

🔹 3. Prompt Injection 抗性降低

🚀 在 Ollama 中部署

⚠️ 建議設定（for 128G）

如何使用 Groq API 快速測試和部署大型語言模型

Groq API 的主要特色

1. 提供 Playground 供快速測試

2. 詳細的 API 文件

3. 高速反應能力

如何開始使用 Groq API

參考資料

Manus 沒邀請碼怎麼辦？用 OpenManus 本地免費部署 Ollama 模型，三分鐘搞定

🚀 1. 本地端完美對接 Ollama AI 模型

💻 2. 跨平台支援 Windows、Mac、Linux

🎯 3. 無需邀請碼，即裝即用！

如何快速部署 OpenManus？（以 Windows 為例）

補充資料

OpenRouter：輕鬆接入多種大型語言模型的統一平台

主要特點：

使用方法：

Cline 整合

DeepSeek R1

近期文章

近期留言

彙整

分類