Ollama 遠端連線教學：Windows PowerShell 連接 AI Server 完整指南

by Rain Chu | 6 月 2, 2026 | AI, Ollama, 模型

想把 Ollama Client 安裝在 Windows 筆電上，但模型實際運行在另一台 AI 伺服器（例如 NVIDIA Spark、Linux GPU 主機）嗎？

本文教你如何透過 PowerShell 指定遠端 Ollama Server，讓本機直接使用遠端模型資源。

Ollama 遠端架構說明

一般情況下，Ollama 預設會連接本機：

localhost:11434

但如果你的 AI 模型部署在另一台主機，例如：

192.168.0.1

則可以透過環境變數指定遠端伺服器。

Step 1：設定遠端 Ollama Host

開啟 PowerShell：

$Env:OLLAMA_HOST = "192.168.0.1:11434"

若使用 HTTP 格式也可以：

$Env:OLLAMA_HOST = "http://192.168.0.1:11434"

建議使用第二種寫法較完整。

Step 2：確認連線是否成功

執行：

ollama list

若成功，將會看到遠端伺服器上的模型清單：

NAME                 ID              SIZEclaude               xxxxxx          45 GBkimi-k2.5:cloud      xxxxxx          22 GBqwen3:32b            xxxxxx          20 GBdeepseek-r1:70b      xxxxxx          42 GB

若出現：

Error: connection refused

請確認：

遠端 Ollama 是否啟動
防火牆是否開放 11434 Port
Ollama 是否監聽 0.0.0.0

Linux 可檢查：

sudo ss -tlnp | grep 11434

正常應看到：

0.0.0.0:11434

Step 3：啟動 Claude

確認模型存在後：

ollama launch claude

系統將直接透過遠端 Ollama 執行 Claude。

Step 4：指定模型版本

例如使用 Kimi K2.5 Cloud 版本：

ollama launch claude --model kimi-k2.5:cloud

也可以切換成其他模型：

ollama launch claude --model qwen3:32b

ollama launch claude --model deepseek-r1:70b

ollama launch claude --model gemma3:27b

每次開機自動設定 OLLAMA_HOST

如果不想每次都輸入：

$Env:OLLAMA_HOST = "192.168.0.240:11434"

可永久寫入 Windows 使用者環境變數：

[System.Environment]::SetEnvironmentVariable(    "OLLAMA_HOST",    "http://192.168.0.240:11434",    "User")

重新開啟 PowerShell 後生效。

驗證：

echo $Env:OLLAMA_HOST

輸出：

http://192.168.0.240:11434

常見問題排除

無法連線

測試：

curl http://192.168.0.240:11434/api/tags

若有回傳 JSON 表示正常。

Linux Server 未開放外部連線

編輯 Ollama Service：

sudo systemctl edit ollama

加入：

[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"

重新載入：

sudo systemctl daemon-reloadsudo systemctl restart ollama

查看目前設定

Windows：

echo $Env:OLLAMA_HOST

Linux：

echo $OLLAMA_HOST

透過設定 OLLAMA_HOST，即可讓 Windows 電腦上的 Ollama Client 直接連接遠端 AI 伺服器，將模型運算交由高效能 GPU 主機處理，而本機僅作為操作介面。

這種架構特別適合：

NVIDIA Spark AI 工作站
家用 GPU 伺服器
多人共用 Ollama Server
企業內部 AI 平台
AI 開發與測試環境

只需一行指令：

$Env:OLLAMA_HOST = "192.168.0.240:11434"

即可讓你的 Windows PC 立即接管遠端 Ollama 的所有模型能力。

Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦

by Rain Chu | 5 月 13, 2026 | AI, Ollama, 模型

最新的 Qwen 3.6，在 Ollama 上的表現，可以說是目前「本地 Coding 模型」中非常強勢的一個系列。

如果你正在使用：

NVIDIA Spark
RTX 顯卡
Ollama
OpenWebUI
Continue
Claude Code
OpenHands
Hermes Agent
Cursor 類工具
Apple

那麼 Qwen 3.6 幾乎一定值得研究。

這篇文章會完整解析：

Qwen 3.6 每個版本差異
27B 與 35B 的差異
MXFP8、NVFP4、BF16 是什麼
哪個最適合寫程式
NVIDIA Spark 最推薦的配置
Ollama 部署建議
多人 SaaS / AI Agent 最佳實務

什麼是 Qwen 3.6？

Qwen 是阿里巴巴推出的大型語言模型（LLM）系列。

最新的 Qwen 3.6，官方特別強調：

Agentic Coding
Repository-level Reasoning
長 Context 推理
Thinking Preservation

也就是說：

它不只是會寫程式，而是開始能理解「整個專案」。

根據官方與 Ollama 頁面資訊，Qwen 3.6 在以下方面有明顯提升：

前端工作流理解
多檔案推理
AI Agent Tool Calling
長上下文理解
歷史推理保留
Repository 級別程式分析

為什麼 Qwen 3.6 很適合 Ollama？

Qwen 3.6 最大特色之一：

就是對本地部署非常友善。

目前 Ollama 已提供大量版本：

27B
35B-A3B
Coding 版本
Vision 版本
MXFP8
NVFP4
BF16
MLX

而且幾乎都支援：

256K Context
長文本推理
本地 AI Agent
Coding Workflow

Qwen 3.6 各版本意思解析

qwen3.6:latest

這是官方最新預設版本。

特色：

通用型
支援圖片
適合聊天與分析
多模態能力

適合：

OpenWebUI
AI 助理
OCR
圖片分析

但：

不是最強的 Coding 版本。

qwen3.6:27b

27B = 270億參數。

這是目前非常熱門的甜蜜點。

優點：

Coding 能力很強
推理速度快
VRAM 壓力較低
多人共享容易

非常適合：

Continue
Claude Code
VSCode AI
Agent Workflow
本地 Copilot

qwen3.6:35b

35B = 350億參數。

這類模型：

推理能力更強。

尤其在：

大型專案理解
架構設計
Refactor
多檔案分析

會比 27B 更好。

但缺點：

更吃 VRAM
速度較慢
成本較高

什麼是 Coding 版本？

例如：

qwen3.6:27b-coding-mxfp8
qwen3.6:35b-a3b-coding-nvfp4

這些是：

專門針對寫程式優化的模型。

相較一般聊天模型：

它們更擅長：

Python
TypeScript
Go
Rust
Docker
Shell
Kubernetes
Debug
Refactor
AI Agent Tool Calling

官方也特別提到：

Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。

MXFP8、NVFP4、BF16 是什麼？

很多人看到：

MXFP8
NVFP4
BF16

會很混亂。

其實這些都是：

「量化格式」。

MXFP8

例如：

qwen3.6:27b-coding-mxfp8

這是 NVIDIA 新世代 FP8 格式。

特色：

品質高
VRAM 使用合理
推理速度快
非常適合 NVIDIA GPU

目前很多人認為：

MXFP8 是本地 AI Coding 的最佳甜蜜點。

尤其適合：

NVIDIA Spark
RTX 4090
RTX 5090
多 Agent Workflow

NVFP4

例如：

qwen3.6:27b-coding-nvfp4

這是 NVIDIA 的 4-bit 浮點量化格式。

特色：

更省 VRAM
更快
可多人共享
吞吐量高

但：

推理品質會稍微下降。

比較適合：

SaaS 平台
多人 AI IDE
高併發 Agent

目前學術研究也開始針對 NVFP4 做最佳化。

BF16

例如：

qwen3.6:27b-coding-bf16

這幾乎是：

接近原始精度。

優點：

品質最高
reasoning 最穩
hallucination 較少

缺點：

超級吃 VRAM
非常耗記憶體
多人共享困難

適合：

單人高品質開發
研究用途
極限推理

MLX 是什麼？

MLX 是 Apple Silicon 專用。

例如：

M1
M2
M3
M4

什麼是 A3B？

例如：

qwen3.6:35b-a3b-coding-mxfp8

這代表：

MoE（Mixture of Experts）架構。

意思是：

模型總參數很大，但每次只啟用部分專家。

優點：

更聰明
更快
成本更低
推理效率高

官方指出：

Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters，但依然能超越部分大型 Dense 模型。

NVIDIA Spark 最推薦哪個？

如果你的環境是：

NVIDIA Spark
CUDA 13
128GB RAM
Ollama
OpenWebUI
Continue
Claude Code
OpenHands

那我目前最推薦：

🥇 最推薦：qwen3.6:27b-coding-mxfp8

推薦原因：

Coding 非常強
推理速度快
VRAM 不容易爆
Agent 很穩
長 Context 表現好
本地部署平衡最佳

這是目前真正的：

「Production Sweet Spot」。

🥈 高階推理推薦：qwen3.6:35b-a3b-coding-mxfp8

適合：

AI Agent
大型專案
架構設計
多 Repo 分析

優點：

reasoning 更強
repository 理解更強
複雜任務更穩

缺點：

比較慢
VRAM 需求更高

🥉 多人 SaaS 推薦：qwen3.6:27b-coding-nvfp4

適合：

多人共享
SaaS
AI IDE
高併發 Agent

優點：

非常省 VRAM
吞吐量高
可同時服務多人

但：

品質會略低於 MXFP8。

我自己的實戰看法

如果你是：

「真正要拿來工作」。

我目前認為：

Qwen 3.6 已經開始接近：

「本地版 Claude Code」。

尤其：

27B Coding MXFP8。

真的已經非常強。

它最大的優勢不是單純寫程式。

而是：

能理解整個 Repo
能做 Agent 工作流
能做長 Context reasoning
能做 Tool Calling
能理解大型專案

這跟以前單純「補程式碼」的模型完全不同。

Ollama 部署建議

安裝模型

ollama pull qwen3.6:27b-coding-mxfp8

執行模型

ollama run qwen3.6:27b-coding-mxfp8

開放 API

export OLLAMA_HOST=0.0.0.0:11434

NVIDIA Spark 最佳化建議

建議環境變數：

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"

適合搭配的工具

Qwen 3.6 很適合：

Continue
Claude Code
OpenHands
Hermes Agent
OpenWebUI
Cursor 類工具
Browser-use
AI Agent Workflow

結論

如果你現在想打造：

本地 AI Coding 環境
AI Agent 平台
多人 AI IDE
本地 Claude Code
Ollama SaaS

那麼：

Qwen 3.6 幾乎是目前最值得研究的一條路。

尤其：

qwen3.6:27b-coding-mxfp8

我認為：

這是目前 NVIDIA Spark 上：

最平衡、最實用、最值得長期使用的本地 Coding 模型之一。

參考資料

Nvidia Spark Ollama 的滿血設定

【Hermes Agent WebUI 正式登場】比 OpenClaw 更強？AI Agent 進入「可視化時代」！

by Rain Chu | 4 月 18, 2026 | AI, Hermes

🧠 Hermes Agent 是什麼？

Hermes Agent 是由 Nous Research 推出的開源 AI Agent 框架，具備：

🔁 跨對話記憶（Memory）
🧠 技能（Skill）可持續累積
🌐 內建網頁瀏覽與工具調用
⏱️ 任務排程（Cron-like）
🔌 OpenAI 相容 API（可接各種 LLM）

👉 本質上，它不是單純聊天機器人，而是「可執行任務的 AI 系統」

🖥️ Hermes WebUI（Dashboard）帶來什麼改變？

1️⃣ 從 CLI → GUI 的巨大轉變

過去：

OpenClaw / Agent 系統 → CLI + config + prompt

現在：

Hermes WebUI → 點擊操作 + 視覺化管理

👉 這是 AI Agent 商業化的關鍵一步

2️⃣ 多 Agent 管理（未來 SaaS 核心）

透過 WebUI，可以：

管理多個 Agent
設定不同任務流程
控制記憶與技能

👉 這意味著：
👉 你可以做「多人 AI 平台」

3️⃣ 技能（Skill）可視化

Hermes 最大亮點：

任務會被記錄成「技能」，並可重複使用

例如：

自動寫報告
自動抓資料
自動操作瀏覽器

👉 這其實就是：
👉 AI workflow engine（未來企業標準）

Hermes 實作

先更新到最新版本

hermes update

然後就可以直接啟用 hermes webui

hermes dashboard

之後就可以用瀏覽器使用，預設是 http://localhost:9119/

🔍 Hermes WebUI 深度觀察（關鍵洞察）

💡 與 Open WebUI 深度整合

在社群中有人指出：

Hermes 可以當成「有狀態的 LLM endpoint」

意思是：

WebUI（前端）
Hermes（Agent）
LLM（模型）

👉 三層架構：

User → WebUI → Hermes Agent → LL

「Hermes 開箱就像調教一週的 OpenClaw」

官方資訊

https://docs.openwebui.com/getting-started/quick-start/connect-an-agent/hermes-agent

第三方套件

https://github.com/nesquena/hermes-webui

Hermes Agent 完整實測：自我進化 AI Agent 架構，全面取代 OpenClaw！

手機離線跑 AI！Google Gemma 4 + AI Edge Gallery 完整解析（免網路也能用）

by Rain Chu | 4 月 10, 2026 | AI, google

近年 AI 發展幾乎都依賴雲端，但現在 Google 正在顛覆這一切，透過最新的 Google AI Edge Gallery App，你已經可以在手機上「離線」直接運行 Gemma 4 大模型，不只文字對話，還能做到圖片理解、語音應用，甚至 AI Agent。

👉 換句話說：
你的手機，正在變成一台隨身 AI 伺服器。

📱 什麼是 Google AI Edge Gallery？

Google AI Edge Gallery 是 Google 推出的開源應用，讓使用者可以：

在手機上下載 AI 模型
完全「離線」執行
不需要連網、不上傳資料

👉 也就是「On-device AI（裝置端 AI）」

📌 重點特色：

🔒 完全隱私（資料不離開手機）
📡 完全離線（無網路也能用）
⚡ 低延遲（不用等雲端回應）

這款 App 主打「直接在硬體上運行生成式 AI」，讓手機具備高效 AI 推理能力

🧠 Gemma 4 是什麼？為什麼這麼強？

Gemma 4 是 Google 最新開源大模型，基於 Gemini 技術打造。

👉 核心重點：

支援多種尺寸（可跑在手機）
強化推理能力與邏輯能力
可本地執行（Edge AI）

目前部分版本（如 E2B / E4B）已經可以在手機透過 AI Edge Gallery 直接跑

👉 簡單講：

類型	傳統 AI	Gemma 4
運算位置	雲端	本地（手機）
隱私	低	高
延遲	高	低
成本	訂閱制	免費

🖼️ 不只是聊天：圖片＋語音也能搞定

這次最關鍵的不是「能聊天」，而是👇

🔍 多模態能力（Multimodal）

Gemma 4 + Edge AI 已經可以支援：

📷 圖片理解（Image Recognition）
🎤 語音相關應用（Speech）
🧾 OCR / 文件理解
🤖 Agent 自動任務

👉 代表未來：

手機 AI 可以直接「看圖、聽聲音、做決策」

⚙️ 實際運作方式

👉 關鍵技術：

模型量化（Quantization）
邊緣推論（Edge Inference）
NPU 加速

這也是為什麼現在手機能跑 AI 的核心原因。

🧪 實測重點

✔ 優點

不用網路也能用 AI
資料完全私密
速度比雲端更即時
免費使用

❌ 缺點

模型體積大（2GB～5GB）
手機會發熱
功能還在成長中

🤖 AI Agent 能力（未來最可怕的地方）

AI Edge Gallery 還支援「Agent Skills」：

可接工具（如地圖、知識庫）
可自動完成任務
可擴展插件

👉 官方甚至強調：

AI 可以從單純聊天變成「主動助理」

🌍 這代表什麼？（重點分析）

這不只是 App，而是產業轉折點👇

1️⃣ AI 從「雲端」走向「個人設備」

ChatGPT → 雲端 AI
Gemma 4 → 個人 AI

2️⃣ AI 成為手機標配（像相機一樣）

未來：

每支手機都有 AI
AI 常駐本地運行
即時處理所有需求

3️⃣ 新創機會爆炸（你可以做）

結合你現在在做的 AI Agent / LangChain：

👉 你可以做：

本地 AI 房仲助理
離線 AI CRM
私有 AI 商業分析工具
Edge AI SaaS（超有機會）

🧭 實際使用流程（超簡單）

安裝 App（Play Store / iOS）
下載模型（Gemma 4）
開始使用（Chat / Image / Voice）

👉 約 5 分鐘內完成

🏁 結論：AI 正在「回到你手上」

Google 這一步很關鍵：

👉 AI 不再只是雲端服務
👉 而是變成「你手機的一部分」

未來 3 年：

每個人都會有一個「離線 AI 助理」

而你現在就可以先卡位。

官方網頁

https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&pli=1

https://github.com/google-ai-edge/gallery?tab=readme-ov-file

女星跨界 AI！蜜拉喬娃維琪打造 ClaudeCode 記憶革命

OpenRouter：輕鬆接入多種大型語言模型的統一平台

by Rain Chu | 2 月 23, 2025 | AI, 程式開發

OpenRouter 是一個統一的大型語言模型（LLM）API 服務平台，可以讓使用者透過單一介面訪問多種大型語言模型。

主要特點：

多模型支援： OpenRouter 集成了多種預訓練模型，如 GPT-4、Gemini、Claude、DALL-E 等，按需求選擇適合的模型。
易於集成： 提供統一的 API 介面，方便與現有系統整合，無需自行部署和維護模型。
成本效益： 透過 API 調用，使用者無需購買昂貴的 GPU 伺服器，降低了硬體成本。

使用方法：

註冊帳號： 使用 Google 帳號即可快速註冊 OpenRouter。
選擇模型： 在平台上瀏覽並選擇適合的模型，部分模型提供免費使用。
調用 API： 使用統一的 API 介面，將選定的模型整合到您的應用中。

Cline 整合

OpenRouter 與 Cline 的整合為開發者提供了強大的 AI 編程體驗，Cline 是一款集成於 VSCode 的 AI 編程助手，支援多種大型語言模型（LLM），如 OpenAI、Anthropic、Mistral 等，透過 OpenRouter，Cline 能夠統一調用這些模型，簡化了不同模型之間的切換和管理，使用者只需在 Cline 的設定中選擇 OpenRouter 作為 API 提供者，並輸入相應的 API 金鑰，即可開始使用多種模型進行開發。這種整合不僅提升了開發效率，還降低了使用多模型的技術門檻。

DeepSeek R1

OpenRouter 現在也支援 DeepSeek R1 模型，DeepSeek R1 是一款高性能的開源 AI 推理模型，具有強大的數學、編程和自然語言推理能力。透過 OpenRouter，開發者可以在 Cline 中輕鬆調用 DeepSeek R1 模型，享受其強大的推理能力。這進一步豐富了開發者的工具選擇，讓他們能夠根據項目需求選擇最適合的模型。

Aider Chat-邊聊邊寫程式

Ollama 遠端連線教學：Windows PowerShell 連接 AI Server 完整指南

Ollama 遠端架構說明

Step 1：設定遠端 Ollama Host

Step 2：確認連線是否成功

Step 3：啟動 Claude

Step 4：指定模型版本

每次開機自動設定 OLLAMA_HOST

常見問題排除

無法連線

Linux Server 未開放外部連線

查看目前設定

Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦

什麼是 Qwen 3.6？

為什麼 Qwen 3.6 很適合 Ollama？

Qwen 3.6 各版本意思解析

qwen3.6:latest

qwen3.6:27b

qwen3.6:35b

什麼是 Coding 版本？

MXFP8、NVFP4、BF16 是什麼？

MXFP8

NVFP4

BF16

MLX 是什麼？

什麼是 A3B？

NVIDIA Spark 最推薦哪個？

🥇 最推薦：qwen3.6:27b-coding-mxfp8

🥈 高階推理推薦：qwen3.6:35b-a3b-coding-mxfp8

🥉 多人 SaaS 推薦：qwen3.6:27b-coding-nvfp4

我自己的實戰看法

Ollama 部署建議

安裝模型

執行模型

開放 API

NVIDIA Spark 最佳化建議

適合搭配的工具

結論

qwen3.6:27b-coding-mxfp8

【Hermes Agent WebUI 正式登場】比 OpenClaw 更強？AI Agent 進入「可視化時代」！

🧠 Hermes Agent 是什麼？

🖥️ Hermes WebUI（Dashboard）帶來什麼改變？

1️⃣ 從 CLI → GUI 的巨大轉變

2️⃣ 多 Agent 管理（未來 SaaS 核心）

3️⃣ 技能（Skill）可視化

Hermes 實作

🔍 Hermes WebUI 深度觀察（關鍵洞察）

💡 與 Open WebUI 深度整合

官方資訊

第三方套件

手機離線跑 AI！Google Gemma 4 + AI Edge Gallery 完整解析（免網路也能用）

📱 什麼是 Google AI Edge Gallery？

🧠 Gemma 4 是什麼？為什麼這麼強？

🖼️ 不只是聊天：圖片＋語音也能搞定

🔍 多模態能力（Multimodal）

⚙️ 實際運作方式

🧪 實測重點

✔ 優點

❌ 缺點

🤖 AI Agent 能力（未來最可怕的地方）

🌍 這代表什麼？（重點分析）

1️⃣ AI 從「雲端」走向「個人設備」

2️⃣ AI 成為手機標配（像相機一樣）

3️⃣ 新創機會爆炸（你可以做）

🧭 實際使用流程（超簡單）

🏁 結論：AI 正在「回到你手上」

官方網頁

OpenRouter：輕鬆接入多種大型語言模型的統一平台

主要特點：

使用方法：

Cline 整合

DeepSeek R1

近期文章

近期留言

彙整

分類