by Rain Chu | 6 月 10, 2026 | AI, 程式開發
打開 opencode 設定檔 :
- macOS / Linux:
~/.config/opencode/opencode.json
- Windows:
%USERPROFILE%\.config\opencode\opencode.json
加入下面的設定(是標準的 json)
json{
"$schema": "https://opencode.ai/config.json",
"provider": {
"ollama": {
"npm": "@ai-sdk/openai-compatible",
"name": "Ollama (local)",
"options": {
"baseURL": "http://localhost:11434/v1"
},
"models": {
"qwen2.5-coder-16k": {
"name": "Qwen Coder Local (16k)",
"tools": true
}
}
}
}
}
Opencode config 說明
https://opencode.ai/docs/config
by Rain Chu | 6 月 2, 2026 | AI, Ollama, 模型
想把 Ollama Client 安裝在 Windows 筆電上,但模型實際運行在另一台 AI 伺服器(例如 NVIDIA Spark、Linux GPU 主機)嗎?
本文教你如何透過 PowerShell 指定遠端 Ollama Server,讓本機直接使用遠端模型資源。
Ollama 遠端架構說明
一般情況下,Ollama 預設會連接本機:
但如果你的 AI 模型部署在另一台主機,例如:
則可以透過環境變數指定遠端伺服器。
Step 1:設定遠端 Ollama Host
開啟 PowerShell:
$Env:OLLAMA_HOST = "192.168.0.1:11434"
若使用 HTTP 格式也可以:
$Env:OLLAMA_HOST = "http://192.168.0.1:11434"
建議使用第二種寫法較完整。
Step 2:確認連線是否成功
執行:
若成功,將會看到遠端伺服器上的模型清單:
NAME ID SIZEclaude xxxxxx 45 GBkimi-k2.5:cloud xxxxxx 22 GBqwen3:32b xxxxxx 20 GBdeepseek-r1:70b xxxxxx 42 GB
若出現:
Error: connection refused
請確認:
- 遠端 Ollama 是否啟動
- 防火牆是否開放 11434 Port
- Ollama 是否監聽 0.0.0.0
Linux 可檢查:
sudo ss -tlnp | grep 11434
正常應看到:
Step 3:啟動 Claude
確認模型存在後:
系統將直接透過遠端 Ollama 執行 Claude。
Step 4:指定模型版本
例如使用 Kimi K2.5 Cloud 版本:
ollama launch claude --model kimi-k2.5:cloud
也可以切換成其他模型:
ollama launch claude --model qwen3:32b
ollama launch claude --model deepseek-r1:70b
ollama launch claude --model gemma3:27b
每次開機自動設定 OLLAMA_HOST
如果不想每次都輸入:
$Env:OLLAMA_HOST = "192.168.0.240:11434"
可永久寫入 Windows 使用者環境變數:
[System.Environment]::SetEnvironmentVariable( "OLLAMA_HOST", "http://192.168.0.240:11434", "User")
重新開啟 PowerShell 後生效。
驗證:
輸出:
http://192.168.0.240:11434
常見問題排除
無法連線
測試:
curl http://192.168.0.240:11434/api/tags
若有回傳 JSON 表示正常。
Linux Server 未開放外部連線
編輯 Ollama Service:
sudo systemctl edit ollama
加入:
[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"
重新載入:
sudo systemctl daemon-reloadsudo systemctl restart ollama
查看目前設定
Windows:
Linux:
透過設定 OLLAMA_HOST,即可讓 Windows 電腦上的 Ollama Client 直接連接遠端 AI 伺服器,將模型運算交由高效能 GPU 主機處理,而本機僅作為操作介面。
這種架構特別適合:
- NVIDIA Spark AI 工作站
- 家用 GPU 伺服器
- 多人共用 Ollama Server
- 企業內部 AI 平台
- AI 開發與測試環境
只需一行指令:
$Env:OLLAMA_HOST = "192.168.0.240:11434"
即可讓你的 Windows PC 立即接管遠端 Ollama 的所有模型能力。
by Rain Chu | 5 月 25, 2026 | AI, claude, Ollama, 模型
Claude Code 最大特色之一,就是它能直接理解整個專案目錄、修改檔案、執行 CLI 指令,甚至自動修復程式碼問題。
但許多人最在意的是:
- API 費用太高
- 原始碼不想送雲端
- 想完全離線使用
- 希望使用自己的 Local LLM
現在透過 Ollama 官方網站 與 LM Studio 官方網站,已經可以讓 Claude Code 直接使用本地模型。
本篇文章會完整介紹:
- Claude Code 是什麼
- 如何讓 Claude Code 使用 Local LLM
- Ollama 與 LM Studio 差異
- 三種實作方式
- Web Search 功能啟用
- 常用 CLI 指令
- 適合的模型推薦
什麼是 Claude Code?
Claude 官方網站 的 Claude Code 是 Anthropic 推出的 AI Coding Agent。
它並不是單純聊天工具,而是:
- 能讀取整個專案
- 可修改程式碼
- 可執行 Terminal 指令
- 可自動修 Bug
- 可跨多檔案操作
- 支援 Agent Workflow
官方描述 Claude Code 是一個:
AI-powered coding assistant that helps you build features, fix bugs, and automate development tasks.
為什麼大家開始用 Local LLM?
Local LLM 的優勢非常明顯:
| 功能 | 雲端模型 | Local LLM |
|---|
| 隱私 | 程式碼送雲端 | 完全本地 |
| 費用 | API Token 收費 | 幾乎免費 |
| 離線 | 不可 | 可 |
| 速度 | 看網路 | 本機 GPU |
| 自訂模型 | 有限制 | 完全自由 |
尤其現在 Ollama 已支援 Anthropic Messages API,相容 Claude Code。
方法一:Claude + VSCode + Ollama / LM Studio
這是目前最多人使用的方法。
架構圖
Claude Code ↓VSCode Extension ↓Ollama / LM Studio ↓Local LLM
安裝流程
Step 1:安裝 Claude Code
官方下載:
Claude Download 官方下載頁面
Linux / macOS:
curl -fsSL https://claude.ai/install.sh | bash
Step 2:安裝 Ollama
官方網站:
Ollama 官方網站
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Step 3:下載模型
推薦模型:
或:
ollama pull deepseek-coder-v2
Step 4:啟動模型
LM Studio 使用方式
如果你不喜歡 CLI,可以使用 LM Studio。
LM Studio 官方網站
LM Studio 特點:
- GUI 操作
- 支援 OpenAI API
- 支援本地 Server
- 支援 GPU Offload
- Windows 體驗很好
有些使用者甚至認為 LM Studio 在 Windows + iGPU 上比 Ollama 更方便。
Claude Code 連接 Ollama
設定環境變數:
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=your_token
export CLAUDE_CODE_EFFORT_LEVEL=low
執行:
Claude Code 即會透過 Ollama 使用本地模型。
方法二:使用 ollama launch claude
這是 Ollama 官方提供的整合方式。
官方文件:
Ollama Claude Code Integration 文件
安裝方式
更新 Ollama:
執行:
這會:
- 自動設定 Claude Code
- 自動串接 Anthropic-compatible API
- 使用本地模型
官方支援模型
目前官方文件中提到可搭配:
等模型。
方法三:使用 free-claude-code Gateway
GitHub:
free-claude-code GitHub 專案
這個專案本質上是一個:
Claude Code Gateway Proxy
它能:
- 將 Claude Code API 轉向 Local LLM
- 模擬 Anthropic API
- 轉接 Ollama / OpenAI API
- 避免官方限制
適合使用情境
非常適合:
- 本地 AI 開發環境
- 多模型切換
- 企業內網
- 私有化部署
- AI Coding Lab
啟動方式
通常為:
git clone https://github.com/Alishahryar1/free-claude-codecd free-claude-codenpm installnpm start
再讓 Claude Code 指向 Gateway。
啟用 Ollama Web Search 功能
Ollama 現在已支援 Web Search。
官方文件:
Ollama Web Search 文件
Web Search 功能用途
可以讓 Local LLM:
- 搜尋最新資訊
- 查 Stack Overflow
- 查 GitHub
- 查文件
- 即時查詢
這對 Claude Code 非常重要。
因為 Coding Agent 若沒有 Web Search:
- 容易使用舊知識
- 不知道最新版套件
- 不知道最新 API
啟用方式
通常:
或:
export OLLAMA_WEB_SEARCH=true
依照官方文件設定即可。
推薦 Local LLM 模型
程式開發最佳選擇
| 模型 | 推薦度 | 特點 |
|---|
| Qwen3-Coder | ★★★★★ | Coding 能力極強 |
| DeepSeek Coder V2 | ★★★★★ | 開源熱門 |
| GLM-5 | ★★★★☆ | 中文能力佳 |
| Kimi K2.5 | ★★★★☆ | 長上下文 |
| Gemma 3 | ★★★☆☆ | 輕量快速 |
Claude Code 常用指令
啟動 Claude Code
指定 API
ANTHROPIC_BASE_URL=http://localhost:11434 claude
指定模型
ANTHROPIC_MODEL=qwen3-coder claude
查看 Ollama 模型
啟動 Ollama Server
Ollama vs LM Studio 比較
| 功能 | Ollama | LM Studio |
|---|
| CLI | 強 | 普通 |
| GUI | 基本 | 非常完整 |
| Windows | 普通 | 非常好 |
| API | 強 | 強 |
| Docker | 強 | 普通 |
| GPU 管理 | CLI | GUI |
| 新手友善 | 中等 | 高 |
Claude Code + Local LLM 的實際優勢
1. 幾乎零成本
不再需要:
- Anthropic API
- OpenAI API
- Token 費用
2. 完全私有化
原始碼不離開本機。
非常適合:
3. 多模型自由切換
你可以:
- 今天用 Qwen
- 明天用 DeepSeek
- 後天用 Kimi
不受平台限制。
我的實際建議
如果你是:
新手
建議:
因為 GUI 最簡單。
Linux / DevOps / AI 工程師
建議:
CLI 整合能力非常強。
企業環境
建議:
free-claude-code Gateway + Ollama
可做到:
- API Gateway
- 多模型管理
- 權限控管
- 私有化部署
結論
Claude Code 正在快速成為下一代 AI Coding Agent。
而現在最重要的變化是:
Claude Code 已經不再只能綁定官方 Claude API。
透過:
- Ollama
- LM Studio
- free-claude-code
- Anthropic-compatible API
你已經可以:
- 完全本地化
- 零 API 成本
- 自由切換模型
- 保護原始碼隱私
對於 AI 開發者與工程團隊來說,這將是非常重要的開發趨勢。
下載資源
官方網站
參考資料
by Rain Chu | 5 月 13, 2026 | AI, Ollama, 模型
最新的 Qwen 3.6,在 Ollama 上的表現,可以說是目前「本地 Coding 模型」中非常強勢的一個系列。
如果你正在使用:
- NVIDIA Spark
- RTX 顯卡
- Ollama
- OpenWebUI
- Continue
- Claude Code
- OpenHands
- Hermes Agent
- Cursor 類工具
- Apple
那麼 Qwen 3.6 幾乎一定值得研究。
這篇文章會完整解析:
- Qwen 3.6 每個版本差異
- 27B 與 35B 的差異
- MXFP8、NVFP4、BF16 是什麼
- 哪個最適合寫程式
- NVIDIA Spark 最推薦的配置
- Ollama 部署建議
- 多人 SaaS / AI Agent 最佳實務
什麼是 Qwen 3.6?
Qwen 是阿里巴巴推出的大型語言模型(LLM)系列。
最新的 Qwen 3.6,官方特別強調:
- Agentic Coding
- Repository-level Reasoning
- 長 Context 推理
- Thinking Preservation
也就是說:
它不只是會寫程式,而是開始能理解「整個專案」。
根據官方與 Ollama 頁面資訊,Qwen 3.6 在以下方面有明顯提升:
- 前端工作流理解
- 多檔案推理
- AI Agent Tool Calling
- 長上下文理解
- 歷史推理保留
- Repository 級別程式分析
為什麼 Qwen 3.6 很適合 Ollama?
Qwen 3.6 最大特色之一:
就是對本地部署非常友善。
目前 Ollama 已提供大量版本:
- 27B
- 35B-A3B
- Coding 版本
- Vision 版本
- MXFP8
- NVFP4
- BF16
- MLX
而且幾乎都支援:
- 256K Context
- 長文本推理
- 本地 AI Agent
- Coding Workflow
Qwen 3.6 各版本意思解析
qwen3.6:latest
這是官方最新預設版本。
特色:
適合:
但:
不是最強的 Coding 版本。
qwen3.6:27b
27B = 270億參數。
這是目前非常熱門的甜蜜點。
優點:
- Coding 能力很強
- 推理速度快
- VRAM 壓力較低
- 多人共享容易
非常適合:
- Continue
- Claude Code
- VSCode AI
- Agent Workflow
- 本地 Copilot
qwen3.6:35b
35B = 350億參數。
這類模型:
推理能力更強。
尤其在:
- 大型專案理解
- 架構設計
- Refactor
- 多檔案分析
會比 27B 更好。
但缺點:
什麼是 Coding 版本?
例如:
- qwen3.6:27b-coding-mxfp8
- qwen3.6:35b-a3b-coding-nvfp4
這些是:
專門針對寫程式優化的模型。
相較一般聊天模型:
它們更擅長:
- Python
- TypeScript
- Go
- Rust
- Docker
- Shell
- Kubernetes
- Debug
- Refactor
- AI Agent Tool Calling
官方也特別提到:
Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。
MXFP8、NVFP4、BF16 是什麼?
很多人看到:
會很混亂。
其實這些都是:
「量化格式」。
MXFP8
例如:
qwen3.6:27b-coding-mxfp8
這是 NVIDIA 新世代 FP8 格式。
特色:
- 品質高
- VRAM 使用合理
- 推理速度快
- 非常適合 NVIDIA GPU
目前很多人認為:
MXFP8 是本地 AI Coding 的最佳甜蜜點。
尤其適合:
- NVIDIA Spark
- RTX 4090
- RTX 5090
- 多 Agent Workflow
NVFP4
例如:
qwen3.6:27b-coding-nvfp4
這是 NVIDIA 的 4-bit 浮點量化格式。
特色:
但:
推理品質會稍微下降。
比較適合:
- SaaS 平台
- 多人 AI IDE
- 高併發 Agent
目前學術研究也開始針對 NVFP4 做最佳化。
BF16
例如:
qwen3.6:27b-coding-bf16
這幾乎是:
接近原始精度。
優點:
- 品質最高
- reasoning 最穩
- hallucination 較少
缺點:
適合:
MLX 是什麼?
MLX 是 Apple Silicon 專用。
例如:
什麼是 A3B?
例如:
qwen3.6:35b-a3b-coding-mxfp8
這代表:
MoE(Mixture of Experts)架構。
意思是:
模型總參數很大,但每次只啟用部分專家。
優點:
官方指出:
Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters,但依然能超越部分大型 Dense 模型。
NVIDIA Spark 最推薦哪個?
如果你的環境是:
- NVIDIA Spark
- CUDA 13
- 128GB RAM
- Ollama
- OpenWebUI
- Continue
- Claude Code
- OpenHands
那我目前最推薦:
🥇 最推薦:qwen3.6:27b-coding-mxfp8
推薦原因:
- Coding 非常強
- 推理速度快
- VRAM 不容易爆
- Agent 很穩
- 長 Context 表現好
- 本地部署平衡最佳
這是目前真正的:
「Production Sweet Spot」。
🥈 高階推理推薦:qwen3.6:35b-a3b-coding-mxfp8
適合:
- AI Agent
- 大型專案
- 架構設計
- 多 Repo 分析
優點:
- reasoning 更強
- repository 理解更強
- 複雜任務更穩
缺點:
🥉 多人 SaaS 推薦:qwen3.6:27b-coding-nvfp4
適合:
- 多人共享
- SaaS
- AI IDE
- 高併發 Agent
優點:
但:
品質會略低於 MXFP8。
我自己的實戰看法
如果你是:
「真正要拿來工作」。
我目前認為:
Qwen 3.6 已經開始接近:
「本地版 Claude Code」。
尤其:
27B Coding MXFP8。
真的已經非常強。
它最大的優勢不是單純寫程式。
而是:
- 能理解整個 Repo
- 能做 Agent 工作流
- 能做長 Context reasoning
- 能做 Tool Calling
- 能理解大型專案
這跟以前單純「補程式碼」的模型完全不同。
Ollama 部署建議
安裝模型
ollama pull qwen3.6:27b-coding-mxfp8
執行模型
ollama run qwen3.6:27b-coding-mxfp8
開放 API
export OLLAMA_HOST=0.0.0.0:11434
NVIDIA Spark 最佳化建議
建議環境變數:
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"
適合搭配的工具
Qwen 3.6 很適合:
- Continue
- Claude Code
- OpenHands
- Hermes Agent
- OpenWebUI
- Cursor 類工具
- Browser-use
- AI Agent Workflow
結論
如果你現在想打造:
- 本地 AI Coding 環境
- AI Agent 平台
- 多人 AI IDE
- 本地 Claude Code
- Ollama SaaS
那麼:
Qwen 3.6 幾乎是目前最值得研究的一條路。
尤其:
qwen3.6:27b-coding-mxfp8
我認為:
這是目前 NVIDIA Spark 上:
最平衡、最實用、最值得長期使用的本地 Coding 模型之一。
參考資料
by Rain Chu | 4 月 29, 2026 | AI, Ollama, 模型
🧱 直接給「滿血設定」
你現在 service 改成這個👇(最重要)
[Unit]
Description=Ollama Service
After=network-online.target[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3# ===== 核心 =====
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_KEEP_ALIVE=-1"# ===== GPU 強制 =====
Environment="OLLAMA_GPU_LAYERS=999"# ===== 記憶體優化 =====
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_FLASH_ATTENTION=1"# ===== Spark專用 tuning =====
Environment="OLLAMA_NUM_PARALLEL=2"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_MAX_QUEUE=512"# ===== CPU 控制 =====
Environment="OMP_NUM_THREADS=20"# ===== PATH =====
Environment="PATH=/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"[Install]
WantedBy=multi-user.target
🔁 套用
sudo systemctl daemon-reexec
sudo systemctl daemon-reload
sudo systemctl restart ollama
🔍 一定要做驗證
systemctl show ollama | grep OLLAMA
👉 要看到全部變數
🧠 模型才是性能關鍵
🔥 Spark 正確用法
| 用途 | 模型 |
|---|
| 最快 | llama3:8b |
| 平衡 | llama3:13b |
| 大模型 | 30B(單一) |
✅ 先做這個測試(非常重要)
ollama run llama3
👉 再看:
nvidia-smi
🔥 讓 GPU 真的滿血(關鍵3件事)
① 模型「完全進 GPU」
👉 關鍵判斷:
ollama ps
看到:
100% GPU
👉 才算成功
② context 不要亂開
👉 Ollama 預設 4096
👉 你如果開到:
👉 = 直接 CPU fallback
👉 建議:
ollama run llama3 --num_ctx 4096
③ 不要多模型併發
Spark 特性:
👉 記憶體大,但 bandwidth 普通
👉 所以:
OLLAMA_NUM_PARALLEL=2
是最佳解
🧠 Spark 的本質
👉 DGX Spark:
- 128GB memory ✔
- 超大模型可跑 ✔
- ❌ 不是高吞吐 GPU
👉 正確定位:
🔥 大模型單機推理機
🧪 接下就會看到的改善
調完後:
| 指標 | 改善 |
|---|
| GPU Util | 0% → 80%+ |
| token/sec | ↑ 3~10倍 |
| latency | ↓ 50%以上 |
| CPU | ↓ |
🎯 注意事項
👉 ❗不要讓使用者直接打 Ollama
近期留言