Select Page

OpenCode 如何使用本地端模型

打開 opencode 設定檔 :

  • macOS / Linux: ~/.config/opencode/opencode.json
  • Windows: %USERPROFILE%\.config\opencode\opencode.json

加入下面的設定(是標準的 json)

json{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ollama": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Ollama (local)",
      "options": {
        "baseURL": "http://localhost:11434/v1"
      },
      "models": {
        "qwen2.5-coder-16k": {
          "name": "Qwen Coder Local (16k)",
          "tools": true
        }
      }
    }
  }
}

Opencode config 說明

https://opencode.ai/docs/config

Ollama 遠端連線教學:Windows PowerShell 連接 AI Server 完整指南

想把 Ollama Client 安裝在 Windows 筆電上,但模型實際運行在另一台 AI 伺服器(例如 NVIDIA Spark、Linux GPU 主機)嗎?

本文教你如何透過 PowerShell 指定遠端 Ollama Server,讓本機直接使用遠端模型資源。


Ollama 遠端架構說明

一般情況下,Ollama 預設會連接本機:

localhost:11434

但如果你的 AI 模型部署在另一台主機,例如:

192.168.0.1

則可以透過環境變數指定遠端伺服器。

Step 1:設定遠端 Ollama Host

開啟 PowerShell:

$Env:OLLAMA_HOST = "192.168.0.1:11434"

若使用 HTTP 格式也可以:

$Env:OLLAMA_HOST = "http://192.168.0.1:11434"

建議使用第二種寫法較完整。


Step 2:確認連線是否成功

執行:

ollama list

若成功,將會看到遠端伺服器上的模型清單:

NAME                 ID              SIZEclaude               xxxxxx          45 GBkimi-k2.5:cloud      xxxxxx          22 GBqwen3:32b            xxxxxx          20 GBdeepseek-r1:70b      xxxxxx          42 GB

若出現:

Error: connection refused

請確認:

  • 遠端 Ollama 是否啟動
  • 防火牆是否開放 11434 Port
  • Ollama 是否監聽 0.0.0.0

Linux 可檢查:

sudo ss -tlnp | grep 11434

正常應看到:

0.0.0.0:11434

Step 3:啟動 Claude

確認模型存在後:

ollama launch claude

系統將直接透過遠端 Ollama 執行 Claude。


Step 4:指定模型版本

例如使用 Kimi K2.5 Cloud 版本:

ollama launch claude --model kimi-k2.5:cloud

也可以切換成其他模型:

ollama launch claude --model qwen3:32b
ollama launch claude --model deepseek-r1:70b
ollama launch claude --model gemma3:27b

每次開機自動設定 OLLAMA_HOST

如果不想每次都輸入:

$Env:OLLAMA_HOST = "192.168.0.240:11434"

可永久寫入 Windows 使用者環境變數:

[System.Environment]::SetEnvironmentVariable(    "OLLAMA_HOST",    "http://192.168.0.240:11434",    "User")

重新開啟 PowerShell 後生效。

驗證:

echo $Env:OLLAMA_HOST

輸出:

http://192.168.0.240:11434

常見問題排除

無法連線

測試:

curl http://192.168.0.240:11434/api/tags

若有回傳 JSON 表示正常。


Linux Server 未開放外部連線

編輯 Ollama Service:

sudo systemctl edit ollama

加入:

[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"

重新載入:

sudo systemctl daemon-reloadsudo systemctl restart ollama

查看目前設定

Windows:

echo $Env:OLLAMA_HOST

Linux:

echo $OLLAMA_HOST

透過設定 OLLAMA_HOST,即可讓 Windows 電腦上的 Ollama Client 直接連接遠端 AI 伺服器,將模型運算交由高效能 GPU 主機處理,而本機僅作為操作介面。

這種架構特別適合:

  • NVIDIA Spark AI 工作站
  • 家用 GPU 伺服器
  • 多人共用 Ollama Server
  • 企業內部 AI 平台
  • AI 開發與測試環境

只需一行指令:

$Env:OLLAMA_HOST = "192.168.0.240:11434"

即可讓你的 Windows PC 立即接管遠端 Ollama 的所有模型能力。

使用 Claude Code 搭配 LM Studio 與 Ollama:打造零 API 成本 AI 開發環境

Claude Code 最大特色之一,就是它能直接理解整個專案目錄、修改檔案、執行 CLI 指令,甚至自動修復程式碼問題。

但許多人最在意的是:

  • API 費用太高
  • 原始碼不想送雲端
  • 想完全離線使用
  • 希望使用自己的 Local LLM

現在透過 Ollama 官方網站LM Studio 官方網站,已經可以讓 Claude Code 直接使用本地模型。

本篇文章會完整介紹:

  • Claude Code 是什麼
  • 如何讓 Claude Code 使用 Local LLM
  • Ollama 與 LM Studio 差異
  • 三種實作方式
  • Web Search 功能啟用
  • 常用 CLI 指令
  • 適合的模型推薦

什麼是 Claude Code?

Claude 官方網站 的 Claude Code 是 Anthropic 推出的 AI Coding Agent。

它並不是單純聊天工具,而是:

  • 能讀取整個專案
  • 可修改程式碼
  • 可執行 Terminal 指令
  • 可自動修 Bug
  • 可跨多檔案操作
  • 支援 Agent Workflow

官方描述 Claude Code 是一個:

AI-powered coding assistant that helps you build features, fix bugs, and automate development tasks.


為什麼大家開始用 Local LLM?

Local LLM 的優勢非常明顯:

功能雲端模型Local LLM
隱私程式碼送雲端完全本地
費用API Token 收費幾乎免費
離線不可
速度看網路本機 GPU
自訂模型有限制完全自由

尤其現在 Ollama 已支援 Anthropic Messages API,相容 Claude Code。


方法一:Claude + VSCode + Ollama / LM Studio

這是目前最多人使用的方法。

架構圖

Claude Code     ↓VSCode Extension     ↓Ollama / LM Studio     ↓Local LLM

安裝流程

Step 1:安裝 Claude Code

官方下載:

Claude Download 官方下載頁面

Linux / macOS:

curl -fsSL https://claude.ai/install.sh | bash

Step 2:安裝 Ollama

官方網站:

Ollama 官方網站

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Step 3:下載模型

推薦模型:

ollama pull qwen3-coder

或:

ollama pull deepseek-coder-v2

Step 4:啟動模型

ollama run qwen3-coder

LM Studio 使用方式

如果你不喜歡 CLI,可以使用 LM Studio。

LM Studio 官方網站

LM Studio 特點:

  • GUI 操作
  • 支援 OpenAI API
  • 支援本地 Server
  • 支援 GPU Offload
  • Windows 體驗很好

有些使用者甚至認為 LM Studio 在 Windows + iGPU 上比 Ollama 更方便。


Claude Code 連接 Ollama

設定環境變數:

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=your_token
export CLAUDE_CODE_EFFORT_LEVEL=low

執行:

claude

Claude Code 即會透過 Ollama 使用本地模型。


方法二:使用 ollama launch claude

這是 Ollama 官方提供的整合方式。

官方文件:

Ollama Claude Code Integration 文件


安裝方式

更新 Ollama:

ollama update

執行:

ollama launch claude

這會:

  • 自動設定 Claude Code
  • 自動串接 Anthropic-compatible API
  • 使用本地模型

官方支援模型

目前官方文件中提到可搭配:

  • qwen3.5
  • glm-5
  • kimi-k2.5

等模型。


方法三:使用 free-claude-code Gateway

GitHub:

free-claude-code GitHub 專案

這個專案本質上是一個:

Claude Code Gateway Proxy

它能:

  • 將 Claude Code API 轉向 Local LLM
  • 模擬 Anthropic API
  • 轉接 Ollama / OpenAI API
  • 避免官方限制

適合使用情境

非常適合:

  • 本地 AI 開發環境
  • 多模型切換
  • 企業內網
  • 私有化部署
  • AI Coding Lab

啟動方式

通常為:

git clone https://github.com/Alishahryar1/free-claude-codecd free-claude-codenpm installnpm start

再讓 Claude Code 指向 Gateway。


啟用 Ollama Web Search 功能

Ollama 現在已支援 Web Search。

官方文件:

Ollama Web Search 文件


Web Search 功能用途

可以讓 Local LLM:

  • 搜尋最新資訊
  • 查 Stack Overflow
  • 查 GitHub
  • 查文件
  • 即時查詢

這對 Claude Code 非常重要。

因為 Coding Agent 若沒有 Web Search:

  • 容易使用舊知識
  • 不知道最新版套件
  • 不知道最新 API

啟用方式

通常:

OLLAMA_WEB_SEARCH=true

或:

export OLLAMA_WEB_SEARCH=true

依照官方文件設定即可。


推薦 Local LLM 模型

程式開發最佳選擇

模型推薦度特點
Qwen3-Coder★★★★★Coding 能力極強
DeepSeek Coder V2★★★★★開源熱門
GLM-5★★★★☆中文能力佳
Kimi K2.5★★★★☆長上下文
Gemma 3★★★☆☆輕量快速

Claude Code 常用指令

啟動 Claude Code

claude

指定 API

ANTHROPIC_BASE_URL=http://localhost:11434 claude

指定模型

ANTHROPIC_MODEL=qwen3-coder claude

查看 Ollama 模型

ollama list

啟動 Ollama Server

ollama serve

Ollama vs LM Studio 比較

功能OllamaLM Studio
CLI普通
GUI基本非常完整
Windows普通非常好
API
Docker普通
GPU 管理CLIGUI
新手友善中等

Claude Code + Local LLM 的實際優勢

1. 幾乎零成本

不再需要:

  • Anthropic API
  • OpenAI API
  • Token 費用

2. 完全私有化

原始碼不離開本機。

非常適合:

  • 企業
  • 資安環境
  • NDA 專案
  • 內網系統

3. 多模型自由切換

你可以:

  • 今天用 Qwen
  • 明天用 DeepSeek
  • 後天用 Kimi

不受平台限制。


我的實際建議

如果你是:

新手

建議:

LM Studio + Claude Code

因為 GUI 最簡單。


Linux / DevOps / AI 工程師

建議:

Ollama + Claude Code

CLI 整合能力非常強。


企業環境

建議:

free-claude-code Gateway + Ollama

可做到:

  • API Gateway
  • 多模型管理
  • 權限控管
  • 私有化部署

結論

Claude Code 正在快速成為下一代 AI Coding Agent。

而現在最重要的變化是:

Claude Code 已經不再只能綁定官方 Claude API。

透過:

  • Ollama
  • LM Studio
  • free-claude-code
  • Anthropic-compatible API

你已經可以:

  • 完全本地化
  • 零 API 成本
  • 自由切換模型
  • 保護原始碼隱私

對於 AI 開發者與工程團隊來說,這將是非常重要的開發趨勢。


下載資源

官方網站


參考資料

Ollama + Qwen 3.6 怎麼選?27B、35B、MXFP8、NVFP4 完整比較與推薦

最新的 Qwen 3.6,在 Ollama 上的表現,可以說是目前「本地 Coding 模型」中非常強勢的一個系列。

如果你正在使用:

  • NVIDIA Spark
  • RTX 顯卡
  • Ollama
  • OpenWebUI
  • Continue
  • Claude Code
  • OpenHands
  • Hermes Agent
  • Cursor 類工具
  • Apple

那麼 Qwen 3.6 幾乎一定值得研究。

這篇文章會完整解析:

  • Qwen 3.6 每個版本差異
  • 27B 與 35B 的差異
  • MXFP8、NVFP4、BF16 是什麼
  • 哪個最適合寫程式
  • NVIDIA Spark 最推薦的配置
  • Ollama 部署建議
  • 多人 SaaS / AI Agent 最佳實務

什麼是 Qwen 3.6?

Qwen 是阿里巴巴推出的大型語言模型(LLM)系列。

最新的 Qwen 3.6,官方特別強調:

  • Agentic Coding
  • Repository-level Reasoning
  • 長 Context 推理
  • Thinking Preservation

也就是說:

它不只是會寫程式,而是開始能理解「整個專案」。

根據官方與 Ollama 頁面資訊,Qwen 3.6 在以下方面有明顯提升:

  • 前端工作流理解
  • 多檔案推理
  • AI Agent Tool Calling
  • 長上下文理解
  • 歷史推理保留
  • Repository 級別程式分析

為什麼 Qwen 3.6 很適合 Ollama?

Qwen 3.6 最大特色之一:

就是對本地部署非常友善。

目前 Ollama 已提供大量版本:

  • 27B
  • 35B-A3B
  • Coding 版本
  • Vision 版本
  • MXFP8
  • NVFP4
  • BF16
  • MLX

而且幾乎都支援:

  • 256K Context
  • 長文本推理
  • 本地 AI Agent
  • Coding Workflow

Qwen 3.6 各版本意思解析

qwen3.6:latest

這是官方最新預設版本。

特色:

  • 通用型
  • 支援圖片
  • 適合聊天與分析
  • 多模態能力

適合:

  • OpenWebUI
  • AI 助理
  • OCR
  • 圖片分析

但:

不是最強的 Coding 版本。


qwen3.6:27b

27B = 270億參數。

這是目前非常熱門的甜蜜點。

優點:

  • Coding 能力很強
  • 推理速度快
  • VRAM 壓力較低
  • 多人共享容易

非常適合:

  • Continue
  • Claude Code
  • VSCode AI
  • Agent Workflow
  • 本地 Copilot

qwen3.6:35b

35B = 350億參數。

這類模型:

推理能力更強。

尤其在:

  • 大型專案理解
  • 架構設計
  • Refactor
  • 多檔案分析

會比 27B 更好。

但缺點:

  • 更吃 VRAM
  • 速度較慢
  • 成本較高

什麼是 Coding 版本?

例如:

  • qwen3.6:27b-coding-mxfp8
  • qwen3.6:35b-a3b-coding-nvfp4

這些是:

專門針對寫程式優化的模型。

相較一般聊天模型:

它們更擅長:

  • Python
  • TypeScript
  • Go
  • Rust
  • Docker
  • Shell
  • Kubernetes
  • Debug
  • Refactor
  • AI Agent Tool Calling

官方也特別提到:

Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。


MXFP8、NVFP4、BF16 是什麼?

很多人看到:

  • MXFP8
  • NVFP4
  • BF16

會很混亂。

其實這些都是:

「量化格式」。


MXFP8

例如:

qwen3.6:27b-coding-mxfp8

這是 NVIDIA 新世代 FP8 格式。

特色:

  • 品質高
  • VRAM 使用合理
  • 推理速度快
  • 非常適合 NVIDIA GPU

目前很多人認為:

MXFP8 是本地 AI Coding 的最佳甜蜜點。

尤其適合:

  • NVIDIA Spark
  • RTX 4090
  • RTX 5090
  • 多 Agent Workflow

NVFP4

例如:

qwen3.6:27b-coding-nvfp4

這是 NVIDIA 的 4-bit 浮點量化格式。

特色:

  • 更省 VRAM
  • 更快
  • 可多人共享
  • 吞吐量高

但:

推理品質會稍微下降。

比較適合:

  • SaaS 平台
  • 多人 AI IDE
  • 高併發 Agent

目前學術研究也開始針對 NVFP4 做最佳化。


BF16

例如:

qwen3.6:27b-coding-bf16

這幾乎是:

接近原始精度。

優點:

  • 品質最高
  • reasoning 最穩
  • hallucination 較少

缺點:

  • 超級吃 VRAM
  • 非常耗記憶體
  • 多人共享困難

適合:

  • 單人高品質開發
  • 研究用途
  • 極限推理

MLX 是什麼?

MLX 是 Apple Silicon 專用。

例如:

  • M1
  • M2
  • M3
  • M4

什麼是 A3B?

例如:

qwen3.6:35b-a3b-coding-mxfp8

這代表:

MoE(Mixture of Experts)架構。

意思是:

模型總參數很大,但每次只啟用部分專家。

優點:

  • 更聰明
  • 更快
  • 成本更低
  • 推理效率高

官方指出:

Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters,但依然能超越部分大型 Dense 模型。


NVIDIA Spark 最推薦哪個?

如果你的環境是:

  • NVIDIA Spark
  • CUDA 13
  • 128GB RAM
  • Ollama
  • OpenWebUI
  • Continue
  • Claude Code
  • OpenHands

那我目前最推薦:


🥇 最推薦:qwen3.6:27b-coding-mxfp8

推薦原因:

  • Coding 非常強
  • 推理速度快
  • VRAM 不容易爆
  • Agent 很穩
  • 長 Context 表現好
  • 本地部署平衡最佳

這是目前真正的:

「Production Sweet Spot」。


🥈 高階推理推薦:qwen3.6:35b-a3b-coding-mxfp8

適合:

  • AI Agent
  • 大型專案
  • 架構設計
  • 多 Repo 分析

優點:

  • reasoning 更強
  • repository 理解更強
  • 複雜任務更穩

缺點:

  • 比較慢
  • VRAM 需求更高

🥉 多人 SaaS 推薦:qwen3.6:27b-coding-nvfp4

適合:

  • 多人共享
  • SaaS
  • AI IDE
  • 高併發 Agent

優點:

  • 非常省 VRAM
  • 吞吐量高
  • 可同時服務多人

但:

品質會略低於 MXFP8。


我自己的實戰看法

如果你是:

「真正要拿來工作」。

我目前認為:

Qwen 3.6 已經開始接近:

「本地版 Claude Code」。

尤其:

27B Coding MXFP8。

真的已經非常強。

它最大的優勢不是單純寫程式。

而是:

  • 能理解整個 Repo
  • 能做 Agent 工作流
  • 能做長 Context reasoning
  • 能做 Tool Calling
  • 能理解大型專案

這跟以前單純「補程式碼」的模型完全不同。


Ollama 部署建議

安裝模型

ollama pull qwen3.6:27b-coding-mxfp8

執行模型

ollama run qwen3.6:27b-coding-mxfp8

開放 API

export OLLAMA_HOST=0.0.0.0:11434

NVIDIA Spark 最佳化建議

建議環境變數:

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"

適合搭配的工具

Qwen 3.6 很適合:

  • Continue
  • Claude Code
  • OpenHands
  • Hermes Agent
  • OpenWebUI
  • Cursor 類工具
  • Browser-use
  • AI Agent Workflow

結論

如果你現在想打造:

  • 本地 AI Coding 環境
  • AI Agent 平台
  • 多人 AI IDE
  • 本地 Claude Code
  • Ollama SaaS

那麼:

Qwen 3.6 幾乎是目前最值得研究的一條路。

尤其:

qwen3.6:27b-coding-mxfp8

我認為:

這是目前 NVIDIA Spark 上:

最平衡、最實用、最值得長期使用的本地 Coding 模型之一。

參考資料

Nvidia Spark Ollama 的滿血設定

🧱 直接給「滿血設定」

你現在 service 改成這個👇(最重要)

[Unit]
Description=Ollama Service
After=network-online.target[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3# ===== 核心 =====
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_KEEP_ALIVE=-1"# ===== GPU 強制 =====
Environment="OLLAMA_GPU_LAYERS=999"# ===== 記憶體優化 =====
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_FLASH_ATTENTION=1"# ===== Spark專用 tuning =====
Environment="OLLAMA_NUM_PARALLEL=2"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_MAX_QUEUE=512"# ===== CPU 控制 =====
Environment="OMP_NUM_THREADS=20"# ===== PATH =====
Environment="PATH=/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"[Install]
WantedBy=multi-user.target

🔁 套用

sudo systemctl daemon-reexec
sudo systemctl daemon-reload
sudo systemctl restart ollama

🔍 一定要做驗證

systemctl show ollama | grep OLLAMA

👉 要看到全部變數


🧠 模型才是性能關鍵

🔥 Spark 正確用法

用途模型
最快llama3:8b
平衡llama3:13b
大模型30B(單一)

✅ 先做這個測試(非常重要)

ollama run llama3

👉 再看:

nvidia-smi

🔥 讓 GPU 真的滿血(關鍵3件事)

① 模型「完全進 GPU」

👉 關鍵判斷:

ollama ps

看到:

100% GPU

👉 才算成功


② context 不要亂開

👉 Ollama 預設 4096

👉 你如果開到:

  • 32K / 128K

👉 = 直接 CPU fallback


👉 建議:

ollama run llama3 --num_ctx 4096

③ 不要多模型併發

Spark 特性:

👉 記憶體大,但 bandwidth 普通

👉 所以:

OLLAMA_NUM_PARALLEL=2

是最佳解


🧠 Spark 的本質

👉 DGX Spark

  • 128GB memory ✔
  • 超大模型可跑 ✔
  • ❌ 不是高吞吐 GPU

👉 正確定位:

🔥 大模型單機推理機


🧪 接下就會看到的改善

調完後:

指標改善
GPU Util0% → 80%+
token/sec↑ 3~10倍
latency↓ 50%以上
CPU

🎯 注意事項

👉 ❗不要讓使用者直接打 Ollama