OpenCode 如何使用本地端模型

by Rain Chu | 6 月 10, 2026 | AI, 程式開發

打開 opencode 設定檔 :

macOS / Linux: ~/.config/opencode/opencode.json
Windows: %USERPROFILE%\.config\opencode\opencode.json

加入下面的設定（是標準的 json)

json{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ollama": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Ollama (local)",
      "options": {
        "baseURL": "http://localhost:11434/v1"
      },
      "models": {
        "qwen2.5-coder-16k": {
          "name": "Qwen Coder Local (16k)",
          "tools": true
        }
      }
    }
  }
}

Opencode config 說明

https://opencode.ai/docs/config

Nidia DGX Spark GB10 Ollama 最佳設定

Ollama 遠端連線教學：Windows PowerShell 連接 AI Server 完整指南

by Rain Chu | 6 月 2, 2026 | AI, Ollama, 模型

想把 Ollama Client 安裝在 Windows 筆電上，但模型實際運行在另一台 AI 伺服器（例如 NVIDIA Spark、Linux GPU 主機）嗎？

本文教你如何透過 PowerShell 指定遠端 Ollama Server，讓本機直接使用遠端模型資源。

Ollama 遠端架構說明

一般情況下，Ollama 預設會連接本機：

localhost:11434

但如果你的 AI 模型部署在另一台主機，例如：

192.168.0.1

則可以透過環境變數指定遠端伺服器。

Step 1：設定遠端 Ollama Host

開啟 PowerShell：

$Env:OLLAMA_HOST = "192.168.0.1:11434"

若使用 HTTP 格式也可以：

$Env:OLLAMA_HOST = "http://192.168.0.1:11434"

建議使用第二種寫法較完整。

Step 2：確認連線是否成功

執行：

ollama list

若成功，將會看到遠端伺服器上的模型清單：

NAME                 ID              SIZEclaude               xxxxxx          45 GBkimi-k2.5:cloud      xxxxxx          22 GBqwen3:32b            xxxxxx          20 GBdeepseek-r1:70b      xxxxxx          42 GB

若出現：

Error: connection refused

請確認：

遠端 Ollama 是否啟動
防火牆是否開放 11434 Port
Ollama 是否監聽 0.0.0.0

Linux 可檢查：

sudo ss -tlnp | grep 11434

正常應看到：

0.0.0.0:11434

Step 3：啟動 Claude

確認模型存在後：

ollama launch claude

系統將直接透過遠端 Ollama 執行 Claude。

Step 4：指定模型版本

例如使用 Kimi K2.5 Cloud 版本：

ollama launch claude --model kimi-k2.5:cloud

也可以切換成其他模型：

ollama launch claude --model qwen3:32b

ollama launch claude --model deepseek-r1:70b

ollama launch claude --model gemma3:27b

每次開機自動設定 OLLAMA_HOST

如果不想每次都輸入：

$Env:OLLAMA_HOST = "192.168.0.240:11434"

可永久寫入 Windows 使用者環境變數：

[System.Environment]::SetEnvironmentVariable(    "OLLAMA_HOST",    "http://192.168.0.240:11434",    "User")

重新開啟 PowerShell 後生效。

驗證：

echo $Env:OLLAMA_HOST

輸出：

http://192.168.0.240:11434

常見問題排除

無法連線

測試：

curl http://192.168.0.240:11434/api/tags

若有回傳 JSON 表示正常。

Linux Server 未開放外部連線

編輯 Ollama Service：

sudo systemctl edit ollama

加入：

[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"

重新載入：

sudo systemctl daemon-reloadsudo systemctl restart ollama

查看目前設定

Windows：

echo $Env:OLLAMA_HOST

Linux：

echo $OLLAMA_HOST

透過設定 OLLAMA_HOST，即可讓 Windows 電腦上的 Ollama Client 直接連接遠端 AI 伺服器，將模型運算交由高效能 GPU 主機處理，而本機僅作為操作介面。

這種架構特別適合：

NVIDIA Spark AI 工作站
家用 GPU 伺服器
多人共用 Ollama Server
企業內部 AI 平台
AI 開發與測試環境

只需一行指令：

$Env:OLLAMA_HOST = "192.168.0.240:11434"

即可讓你的 Windows PC 立即接管遠端 Ollama 的所有模型能力。

使用 Claude Code 搭配 LM Studio 與 Ollama：打造零 API 成本 AI 開發環境

by Rain Chu | 5 月 25, 2026 | AI, claude, Ollama, 模型

Claude Code 最大特色之一，就是它能直接理解整個專案目錄、修改檔案、執行 CLI 指令，甚至自動修復程式碼問題。

但許多人最在意的是：

API 費用太高
原始碼不想送雲端
想完全離線使用
希望使用自己的 Local LLM

現在透過 Ollama 官方網站與 LM Studio 官方網站，已經可以讓 Claude Code 直接使用本地模型。

本篇文章會完整介紹：

Claude Code 是什麼
如何讓 Claude Code 使用 Local LLM
Ollama 與 LM Studio 差異
三種實作方式
Web Search 功能啟用
常用 CLI 指令
適合的模型推薦

什麼是 Claude Code？

Claude 官方網站的 Claude Code 是 Anthropic 推出的 AI Coding Agent。

它並不是單純聊天工具，而是：

能讀取整個專案
可修改程式碼
可執行 Terminal 指令
可自動修 Bug
可跨多檔案操作
支援 Agent Workflow

官方描述 Claude Code 是一個：

AI-powered coding assistant that helps you build features, fix bugs, and automate development tasks.

為什麼大家開始用 Local LLM？

Local LLM 的優勢非常明顯：

功能	雲端模型	Local LLM
隱私	程式碼送雲端	完全本地
費用	API Token 收費	幾乎免費
離線	不可	可
速度	看網路	本機 GPU
自訂模型	有限制	完全自由

尤其現在 Ollama 已支援 Anthropic Messages API，相容 Claude Code。

方法一：Claude + VSCode + Ollama / LM Studio

這是目前最多人使用的方法。

架構圖

Claude Code     ↓VSCode Extension     ↓Ollama / LM Studio     ↓Local LLM

安裝流程

Step 1：安裝 Claude Code

官方下載：

Claude Download 官方下載頁面

Linux / macOS：

curl -fsSL https://claude.ai/install.sh | bash

Step 2：安裝 Ollama

官方網站：

Ollama 官方網站

Linux：

curl -fsSL https://ollama.com/install.sh | sh

Step 3：下載模型

推薦模型：

ollama pull qwen3-coder

或：

ollama pull deepseek-coder-v2

Step 4：啟動模型

ollama run qwen3-coder

LM Studio 使用方式

如果你不喜歡 CLI，可以使用 LM Studio。

LM Studio 官方網站

LM Studio 特點：

GUI 操作
支援 OpenAI API
支援本地 Server
支援 GPU Offload
Windows 體驗很好

有些使用者甚至認為 LM Studio 在 Windows + iGPU 上比 Ollama 更方便。

Claude Code 連接 Ollama

設定環境變數：

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=your_token
export CLAUDE_CODE_EFFORT_LEVEL=low

執行：

claude

Claude Code 即會透過 Ollama 使用本地模型。

方法二：使用 ollama launch claude

這是 Ollama 官方提供的整合方式。

官方文件：

Ollama Claude Code Integration 文件

安裝方式

更新 Ollama：

ollama update

執行：

ollama launch claude

這會：

自動設定 Claude Code
自動串接 Anthropic-compatible API
使用本地模型

官方支援模型

目前官方文件中提到可搭配：

qwen3.5
glm-5
kimi-k2.5

等模型。

方法三：使用 free-claude-code Gateway

GitHub：

free-claude-code GitHub 專案

這個專案本質上是一個：

Claude Code Gateway Proxy

它能：

將 Claude Code API 轉向 Local LLM
模擬 Anthropic API
轉接 Ollama / OpenAI API
避免官方限制

適合使用情境

非常適合：

本地 AI 開發環境
多模型切換
企業內網
私有化部署
AI Coding Lab

啟動方式

通常為：

git clone https://github.com/Alishahryar1/free-claude-codecd free-claude-codenpm installnpm start

再讓 Claude Code 指向 Gateway。

啟用 Ollama Web Search 功能

Ollama 現在已支援 Web Search。

官方文件：

Ollama Web Search 文件

Web Search 功能用途

可以讓 Local LLM：

搜尋最新資訊
查 Stack Overflow
查 GitHub
查文件
即時查詢

這對 Claude Code 非常重要。

因為 Coding Agent 若沒有 Web Search：

容易使用舊知識
不知道最新版套件
不知道最新 API

啟用方式

通常：

OLLAMA_WEB_SEARCH=true

或：

export OLLAMA_WEB_SEARCH=true

依照官方文件設定即可。

模型	推薦度	特點
Qwen3-Coder	★★★★★	Coding 能力極強
DeepSeek Coder V2	★★★★★	開源熱門
GLM-5	★★★★☆	中文能力佳
Kimi K2.5	★★★★☆	長上下文
Gemma 3	★★★☆☆	輕量快速

Claude Code 常用指令

啟動 Claude Code

claude

指定 API

ANTHROPIC_BASE_URL=http://localhost:11434 claude

指定模型

ANTHROPIC_MODEL=qwen3-coder claude

查看 Ollama 模型

ollama list

啟動 Ollama Server

ollama serve

Ollama vs LM Studio 比較

功能	Ollama	LM Studio
CLI	強	普通
GUI	基本	非常完整
Windows	普通	非常好
API	強	強
Docker	強	普通
GPU 管理	CLI	GUI
新手友善	中等	高

Claude Code + Local LLM 的實際優勢

1. 幾乎零成本

不再需要：

Anthropic API
OpenAI API
Token 費用

2. 完全私有化

原始碼不離開本機。

非常適合：

企業
資安環境
NDA 專案
內網系統

3. 多模型自由切換

你可以：

今天用 Qwen
明天用 DeepSeek
後天用 Kimi

不受平台限制。

我的實際建議

如果你是：

新手

建議：

LM Studio + Claude Code

因為 GUI 最簡單。

Linux / DevOps / AI 工程師

建議：

Ollama + Claude Code

CLI 整合能力非常強。

企業環境

建議：

free-claude-code Gateway + Ollama

可做到：

API Gateway
多模型管理
權限控管
私有化部署

結論

Claude Code 正在快速成為下一代 AI Coding Agent。

而現在最重要的變化是：

Claude Code 已經不再只能綁定官方 Claude API。

透過：

Ollama
LM Studio
free-claude-code
Anthropic-compatible API

你已經可以：

完全本地化
零 API 成本
自由切換模型
保護原始碼隱私

對於 AI 開發者與工程團隊來說，這將是非常重要的開發趨勢。

下載資源

官方網站

參考資料

Claude Code Workflow 完整指南：ultrawork、多 Agent 協作與腳本化 AI 編程實戰

Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦

by Rain Chu | 5 月 13, 2026 | AI, Ollama, 模型

最新的 Qwen 3.6，在 Ollama 上的表現，可以說是目前「本地 Coding 模型」中非常強勢的一個系列。

如果你正在使用：

NVIDIA Spark
RTX 顯卡
Ollama
OpenWebUI
Continue
Claude Code
OpenHands
Hermes Agent
Cursor 類工具
Apple

那麼 Qwen 3.6 幾乎一定值得研究。

這篇文章會完整解析：

Qwen 3.6 每個版本差異
27B 與 35B 的差異
MXFP8、NVFP4、BF16 是什麼
哪個最適合寫程式
NVIDIA Spark 最推薦的配置
Ollama 部署建議
多人 SaaS / AI Agent 最佳實務

什麼是 Qwen 3.6？

Qwen 是阿里巴巴推出的大型語言模型（LLM）系列。

最新的 Qwen 3.6，官方特別強調：

Agentic Coding
Repository-level Reasoning
長 Context 推理
Thinking Preservation

也就是說：

它不只是會寫程式，而是開始能理解「整個專案」。

根據官方與 Ollama 頁面資訊，Qwen 3.6 在以下方面有明顯提升：

前端工作流理解
多檔案推理
AI Agent Tool Calling
長上下文理解
歷史推理保留
Repository 級別程式分析

為什麼 Qwen 3.6 很適合 Ollama？

Qwen 3.6 最大特色之一：

就是對本地部署非常友善。

目前 Ollama 已提供大量版本：

27B
35B-A3B
Coding 版本
Vision 版本
MXFP8
NVFP4
BF16
MLX

而且幾乎都支援：

256K Context
長文本推理
本地 AI Agent
Coding Workflow

Qwen 3.6 各版本意思解析

qwen3.6:latest

這是官方最新預設版本。

特色：

通用型
支援圖片
適合聊天與分析
多模態能力

適合：

OpenWebUI
AI 助理
OCR
圖片分析

但：

不是最強的 Coding 版本。

qwen3.6:27b

27B = 270億參數。

這是目前非常熱門的甜蜜點。

優點：

Coding 能力很強
推理速度快
VRAM 壓力較低
多人共享容易

非常適合：

Continue
Claude Code
VSCode AI
Agent Workflow
本地 Copilot

qwen3.6:35b

35B = 350億參數。

這類模型：

推理能力更強。

尤其在：

大型專案理解
架構設計
Refactor
多檔案分析

會比 27B 更好。

但缺點：

更吃 VRAM
速度較慢
成本較高

什麼是 Coding 版本？

例如：

qwen3.6:27b-coding-mxfp8
qwen3.6:35b-a3b-coding-nvfp4

這些是：

專門針對寫程式優化的模型。

相較一般聊天模型：

它們更擅長：

Python
TypeScript
Go
Rust
Docker
Shell
Kubernetes
Debug
Refactor
AI Agent Tool Calling

官方也特別提到：

Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。

MXFP8、NVFP4、BF16 是什麼？

很多人看到：

MXFP8
NVFP4
BF16

會很混亂。

其實這些都是：

「量化格式」。

MXFP8

例如：

qwen3.6:27b-coding-mxfp8

這是 NVIDIA 新世代 FP8 格式。

特色：

品質高
VRAM 使用合理
推理速度快
非常適合 NVIDIA GPU

目前很多人認為：

MXFP8 是本地 AI Coding 的最佳甜蜜點。

尤其適合：

NVIDIA Spark
RTX 4090
RTX 5090
多 Agent Workflow

NVFP4

例如：

qwen3.6:27b-coding-nvfp4

這是 NVIDIA 的 4-bit 浮點量化格式。

特色：

更省 VRAM
更快
可多人共享
吞吐量高

但：

推理品質會稍微下降。

比較適合：

SaaS 平台
多人 AI IDE
高併發 Agent

目前學術研究也開始針對 NVFP4 做最佳化。

BF16

例如：

qwen3.6:27b-coding-bf16

這幾乎是：

接近原始精度。

優點：

品質最高
reasoning 最穩
hallucination 較少

缺點：

超級吃 VRAM
非常耗記憶體
多人共享困難

適合：

單人高品質開發
研究用途
極限推理

MLX 是什麼？

MLX 是 Apple Silicon 專用。

例如：

M1
M2
M3
M4

什麼是 A3B？

例如：

qwen3.6:35b-a3b-coding-mxfp8

這代表：

MoE（Mixture of Experts）架構。

意思是：

模型總參數很大，但每次只啟用部分專家。

優點：

更聰明
更快
成本更低
推理效率高

官方指出：

Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters，但依然能超越部分大型 Dense 模型。

NVIDIA Spark 最推薦哪個？

如果你的環境是：

NVIDIA Spark
CUDA 13
128GB RAM
Ollama
OpenWebUI
Continue
Claude Code
OpenHands

那我目前最推薦：

🥇 最推薦：qwen3.6:27b-coding-mxfp8

推薦原因：

Coding 非常強
推理速度快
VRAM 不容易爆
Agent 很穩
長 Context 表現好
本地部署平衡最佳

這是目前真正的：

「Production Sweet Spot」。

🥈 高階推理推薦：qwen3.6:35b-a3b-coding-mxfp8

適合：

AI Agent
大型專案
架構設計
多 Repo 分析

優點：

reasoning 更強
repository 理解更強
複雜任務更穩

缺點：

比較慢
VRAM 需求更高

🥉 多人 SaaS 推薦：qwen3.6:27b-coding-nvfp4

適合：

多人共享
SaaS
AI IDE
高併發 Agent

優點：

非常省 VRAM
吞吐量高
可同時服務多人

但：

品質會略低於 MXFP8。

我自己的實戰看法

如果你是：

「真正要拿來工作」。

我目前認為：

Qwen 3.6 已經開始接近：

「本地版 Claude Code」。

尤其：

27B Coding MXFP8。

真的已經非常強。

它最大的優勢不是單純寫程式。

而是：

能理解整個 Repo
能做 Agent 工作流
能做長 Context reasoning
能做 Tool Calling
能理解大型專案

這跟以前單純「補程式碼」的模型完全不同。

Ollama 部署建議

安裝模型

ollama pull qwen3.6:27b-coding-mxfp8

執行模型

ollama run qwen3.6:27b-coding-mxfp8

開放 API

export OLLAMA_HOST=0.0.0.0:11434

NVIDIA Spark 最佳化建議

建議環境變數：

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"

適合搭配的工具

Qwen 3.6 很適合：

Continue
Claude Code
OpenHands
Hermes Agent
OpenWebUI
Cursor 類工具
Browser-use
AI Agent Workflow

結論

如果你現在想打造：

本地 AI Coding 環境
AI Agent 平台
多人 AI IDE
本地 Claude Code
Ollama SaaS

那麼：

Qwen 3.6 幾乎是目前最值得研究的一條路。

尤其：

qwen3.6:27b-coding-mxfp8

我認為：

這是目前 NVIDIA Spark 上：

最平衡、最實用、最值得長期使用的本地 Coding 模型之一。

參考資料

Nvidia Spark Ollama 的滿血設定

Nvidia Spark Ollama 的滿血設定

by Rain Chu | 4 月 29, 2026 | AI, Ollama, 模型

🧱 直接給「滿血設定」

你現在 service 改成這個👇（最重要）

[Unit]
Description=Ollama Service
After=network-online.target[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3# ===== 核心 =====
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_KEEP_ALIVE=-1"# ===== GPU 強制 =====
Environment="OLLAMA_GPU_LAYERS=999"# ===== 記憶體優化 =====
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_FLASH_ATTENTION=1"# ===== Spark專用 tuning =====
Environment="OLLAMA_NUM_PARALLEL=2"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_MAX_QUEUE=512"# ===== CPU 控制 =====
Environment="OMP_NUM_THREADS=20"# ===== PATH =====
Environment="PATH=/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"[Install]
WantedBy=multi-user.target

🔁 套用

sudo systemctl daemon-reexec
sudo systemctl daemon-reload
sudo systemctl restart ollama

🔍 一定要做驗證

systemctl show ollama | grep OLLAMA

👉 要看到全部變數

🧠 模型才是性能關鍵

🔥 Spark 正確用法

用途	模型
最快	llama3:8b
平衡	llama3:13b
大模型	30B（單一）

✅ 先做這個測試（非常重要）

ollama run llama3

👉 再看：

nvidia-smi

🔥 讓 GPU 真的滿血（關鍵3件事）

① 模型「完全進 GPU」

👉 關鍵判斷：

ollama ps

看到：

100% GPU

👉 才算成功

② context 不要亂開

👉 Ollama 預設 4096

👉 你如果開到：

32K / 128K

👉 = 直接 CPU fallback

👉 建議：

ollama run llama3 --num_ctx 4096

③ 不要多模型併發

Spark 特性：

👉 記憶體大，但 bandwidth 普通

👉 所以：

OLLAMA_NUM_PARALLEL=2

是最佳解

🧠 Spark 的本質

👉 DGX Spark：

128GB memory ✔
超大模型可跑 ✔
❌ 不是高吞吐 GPU

👉 正確定位：

🔥 大模型單機推理機

🧪 接下就會看到的改善

調完後：

指標	改善
GPU Util	0% → 80%+
token/sec	↑ 3~10倍
latency	↓ 50%以上
CPU	↓

🎯 注意事項

👉 ❗不要讓使用者直接打 Ollama

Gemma 4 越獄版完整解析：解鎖 AI 限制、釋放 31B 模型最大能力！

用 Telegram 遠端操控 Claude Code：完整踩坑教學

OpenCode 如何使用本地端模型

Ollama 遠端連線教學：Windows PowerShell 連接 AI Server 完整指南

Ollama 遠端架構說明

Step 1：設定遠端 Ollama Host

Step 2：確認連線是否成功

Step 3：啟動 Claude

Step 4：指定模型版本

每次開機自動設定 OLLAMA_HOST

常見問題排除

無法連線

Linux Server 未開放外部連線

查看目前設定

使用 Claude Code 搭配 LM Studio 與 Ollama：打造零 API 成本 AI 開發環境

什麼是 Claude Code？

為什麼大家開始用 Local LLM？

方法一：Claude + VSCode + Ollama / LM Studio

架構圖

安裝流程

Step 1：安裝 Claude Code

Step 2：安裝 Ollama

Step 3：下載模型

Step 4：啟動模型

LM Studio 使用方式

Claude Code 連接 Ollama

方法二：使用 ollama launch claude

安裝方式

官方支援模型

方法三：使用 free-claude-code Gateway

適合使用情境

啟動方式

啟用 Ollama Web Search 功能

Web Search 功能用途

啟用方式

推薦 Local LLM 模型

程式開發最佳選擇

Claude Code 常用指令

啟動 Claude Code

指定 API

指定模型

查看 Ollama 模型

啟動 Ollama Server

Ollama vs LM Studio 比較

Claude Code + Local LLM 的實際優勢

1. 幾乎零成本

2. 完全私有化

3. 多模型自由切換

我的實際建議

新手

Linux / DevOps / AI 工程師

企業環境

結論

下載資源

官方網站

參考資料

Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦

什麼是 Qwen 3.6？

為什麼 Qwen 3.6 很適合 Ollama？

Qwen 3.6 各版本意思解析

qwen3.6:latest

qwen3.6:27b

qwen3.6:35b

什麼是 Coding 版本？

MXFP8、NVFP4、BF16 是什麼？

MXFP8

NVFP4

BF16

MLX 是什麼？

什麼是 A3B？

NVIDIA Spark 最推薦哪個？

🥇 最推薦：qwen3.6:27b-coding-mxfp8

🥈 高階推理推薦：qwen3.6:35b-a3b-coding-mxfp8

🥉 多人 SaaS 推薦：qwen3.6:27b-coding-nvfp4

我自己的實戰看法

Ollama 部署建議

安裝模型

執行模型

開放 API

NVIDIA Spark 最佳化建議

適合搭配的工具

結論