Select Page

Ollama 遠端連線教學:Windows PowerShell 連接 AI Server 完整指南

想把 Ollama Client 安裝在 Windows 筆電上,但模型實際運行在另一台 AI 伺服器(例如 NVIDIA Spark、Linux GPU 主機)嗎?

本文教你如何透過 PowerShell 指定遠端 Ollama Server,讓本機直接使用遠端模型資源。


Ollama 遠端架構說明

一般情況下,Ollama 預設會連接本機:

localhost:11434

但如果你的 AI 模型部署在另一台主機,例如:

192.168.0.1

則可以透過環境變數指定遠端伺服器。

Step 1:設定遠端 Ollama Host

開啟 PowerShell:

$Env:OLLAMA_HOST = "192.168.0.1:11434"

若使用 HTTP 格式也可以:

$Env:OLLAMA_HOST = "http://192.168.0.1:11434"

建議使用第二種寫法較完整。


Step 2:確認連線是否成功

執行:

ollama list

若成功,將會看到遠端伺服器上的模型清單:

NAME                 ID              SIZEclaude               xxxxxx          45 GBkimi-k2.5:cloud      xxxxxx          22 GBqwen3:32b            xxxxxx          20 GBdeepseek-r1:70b      xxxxxx          42 GB

若出現:

Error: connection refused

請確認:

  • 遠端 Ollama 是否啟動
  • 防火牆是否開放 11434 Port
  • Ollama 是否監聽 0.0.0.0

Linux 可檢查:

sudo ss -tlnp | grep 11434

正常應看到:

0.0.0.0:11434

Step 3:啟動 Claude

確認模型存在後:

ollama launch claude

系統將直接透過遠端 Ollama 執行 Claude。


Step 4:指定模型版本

例如使用 Kimi K2.5 Cloud 版本:

ollama launch claude --model kimi-k2.5:cloud

也可以切換成其他模型:

ollama launch claude --model qwen3:32b
ollama launch claude --model deepseek-r1:70b
ollama launch claude --model gemma3:27b

每次開機自動設定 OLLAMA_HOST

如果不想每次都輸入:

$Env:OLLAMA_HOST = "192.168.0.240:11434"

可永久寫入 Windows 使用者環境變數:

[System.Environment]::SetEnvironmentVariable(    "OLLAMA_HOST",    "http://192.168.0.240:11434",    "User")

重新開啟 PowerShell 後生效。

驗證:

echo $Env:OLLAMA_HOST

輸出:

http://192.168.0.240:11434

常見問題排除

無法連線

測試:

curl http://192.168.0.240:11434/api/tags

若有回傳 JSON 表示正常。


Linux Server 未開放外部連線

編輯 Ollama Service:

sudo systemctl edit ollama

加入:

[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"

重新載入:

sudo systemctl daemon-reloadsudo systemctl restart ollama

查看目前設定

Windows:

echo $Env:OLLAMA_HOST

Linux:

echo $OLLAMA_HOST

透過設定 OLLAMA_HOST,即可讓 Windows 電腦上的 Ollama Client 直接連接遠端 AI 伺服器,將模型運算交由高效能 GPU 主機處理,而本機僅作為操作介面。

這種架構特別適合:

  • NVIDIA Spark AI 工作站
  • 家用 GPU 伺服器
  • 多人共用 Ollama Server
  • 企業內部 AI 平台
  • AI 開發與測試環境

只需一行指令:

$Env:OLLAMA_HOST = "192.168.0.240:11434"

即可讓你的 Windows PC 立即接管遠端 Ollama 的所有模型能力。

Ollama + Qwen 3.6 怎麼選?27B、35B、MXFP8、NVFP4 完整比較與推薦

最新的 Qwen 3.6,在 Ollama 上的表現,可以說是目前「本地 Coding 模型」中非常強勢的一個系列。

如果你正在使用:

  • NVIDIA Spark
  • RTX 顯卡
  • Ollama
  • OpenWebUI
  • Continue
  • Claude Code
  • OpenHands
  • Hermes Agent
  • Cursor 類工具
  • Apple

那麼 Qwen 3.6 幾乎一定值得研究。

這篇文章會完整解析:

  • Qwen 3.6 每個版本差異
  • 27B 與 35B 的差異
  • MXFP8、NVFP4、BF16 是什麼
  • 哪個最適合寫程式
  • NVIDIA Spark 最推薦的配置
  • Ollama 部署建議
  • 多人 SaaS / AI Agent 最佳實務

什麼是 Qwen 3.6?

Qwen 是阿里巴巴推出的大型語言模型(LLM)系列。

最新的 Qwen 3.6,官方特別強調:

  • Agentic Coding
  • Repository-level Reasoning
  • 長 Context 推理
  • Thinking Preservation

也就是說:

它不只是會寫程式,而是開始能理解「整個專案」。

根據官方與 Ollama 頁面資訊,Qwen 3.6 在以下方面有明顯提升:

  • 前端工作流理解
  • 多檔案推理
  • AI Agent Tool Calling
  • 長上下文理解
  • 歷史推理保留
  • Repository 級別程式分析

為什麼 Qwen 3.6 很適合 Ollama?

Qwen 3.6 最大特色之一:

就是對本地部署非常友善。

目前 Ollama 已提供大量版本:

  • 27B
  • 35B-A3B
  • Coding 版本
  • Vision 版本
  • MXFP8
  • NVFP4
  • BF16
  • MLX

而且幾乎都支援:

  • 256K Context
  • 長文本推理
  • 本地 AI Agent
  • Coding Workflow

Qwen 3.6 各版本意思解析

qwen3.6:latest

這是官方最新預設版本。

特色:

  • 通用型
  • 支援圖片
  • 適合聊天與分析
  • 多模態能力

適合:

  • OpenWebUI
  • AI 助理
  • OCR
  • 圖片分析

但:

不是最強的 Coding 版本。


qwen3.6:27b

27B = 270億參數。

這是目前非常熱門的甜蜜點。

優點:

  • Coding 能力很強
  • 推理速度快
  • VRAM 壓力較低
  • 多人共享容易

非常適合:

  • Continue
  • Claude Code
  • VSCode AI
  • Agent Workflow
  • 本地 Copilot

qwen3.6:35b

35B = 350億參數。

這類模型:

推理能力更強。

尤其在:

  • 大型專案理解
  • 架構設計
  • Refactor
  • 多檔案分析

會比 27B 更好。

但缺點:

  • 更吃 VRAM
  • 速度較慢
  • 成本較高

什麼是 Coding 版本?

例如:

  • qwen3.6:27b-coding-mxfp8
  • qwen3.6:35b-a3b-coding-nvfp4

這些是:

專門針對寫程式優化的模型。

相較一般聊天模型:

它們更擅長:

  • Python
  • TypeScript
  • Go
  • Rust
  • Docker
  • Shell
  • Kubernetes
  • Debug
  • Refactor
  • AI Agent Tool Calling

官方也特別提到:

Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。


MXFP8、NVFP4、BF16 是什麼?

很多人看到:

  • MXFP8
  • NVFP4
  • BF16

會很混亂。

其實這些都是:

「量化格式」。


MXFP8

例如:

qwen3.6:27b-coding-mxfp8

這是 NVIDIA 新世代 FP8 格式。

特色:

  • 品質高
  • VRAM 使用合理
  • 推理速度快
  • 非常適合 NVIDIA GPU

目前很多人認為:

MXFP8 是本地 AI Coding 的最佳甜蜜點。

尤其適合:

  • NVIDIA Spark
  • RTX 4090
  • RTX 5090
  • 多 Agent Workflow

NVFP4

例如:

qwen3.6:27b-coding-nvfp4

這是 NVIDIA 的 4-bit 浮點量化格式。

特色:

  • 更省 VRAM
  • 更快
  • 可多人共享
  • 吞吐量高

但:

推理品質會稍微下降。

比較適合:

  • SaaS 平台
  • 多人 AI IDE
  • 高併發 Agent

目前學術研究也開始針對 NVFP4 做最佳化。


BF16

例如:

qwen3.6:27b-coding-bf16

這幾乎是:

接近原始精度。

優點:

  • 品質最高
  • reasoning 最穩
  • hallucination 較少

缺點:

  • 超級吃 VRAM
  • 非常耗記憶體
  • 多人共享困難

適合:

  • 單人高品質開發
  • 研究用途
  • 極限推理

MLX 是什麼?

MLX 是 Apple Silicon 專用。

例如:

  • M1
  • M2
  • M3
  • M4

什麼是 A3B?

例如:

qwen3.6:35b-a3b-coding-mxfp8

這代表:

MoE(Mixture of Experts)架構。

意思是:

模型總參數很大,但每次只啟用部分專家。

優點:

  • 更聰明
  • 更快
  • 成本更低
  • 推理效率高

官方指出:

Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters,但依然能超越部分大型 Dense 模型。


NVIDIA Spark 最推薦哪個?

如果你的環境是:

  • NVIDIA Spark
  • CUDA 13
  • 128GB RAM
  • Ollama
  • OpenWebUI
  • Continue
  • Claude Code
  • OpenHands

那我目前最推薦:


🥇 最推薦:qwen3.6:27b-coding-mxfp8

推薦原因:

  • Coding 非常強
  • 推理速度快
  • VRAM 不容易爆
  • Agent 很穩
  • 長 Context 表現好
  • 本地部署平衡最佳

這是目前真正的:

「Production Sweet Spot」。


🥈 高階推理推薦:qwen3.6:35b-a3b-coding-mxfp8

適合:

  • AI Agent
  • 大型專案
  • 架構設計
  • 多 Repo 分析

優點:

  • reasoning 更強
  • repository 理解更強
  • 複雜任務更穩

缺點:

  • 比較慢
  • VRAM 需求更高

🥉 多人 SaaS 推薦:qwen3.6:27b-coding-nvfp4

適合:

  • 多人共享
  • SaaS
  • AI IDE
  • 高併發 Agent

優點:

  • 非常省 VRAM
  • 吞吐量高
  • 可同時服務多人

但:

品質會略低於 MXFP8。


我自己的實戰看法

如果你是:

「真正要拿來工作」。

我目前認為:

Qwen 3.6 已經開始接近:

「本地版 Claude Code」。

尤其:

27B Coding MXFP8。

真的已經非常強。

它最大的優勢不是單純寫程式。

而是:

  • 能理解整個 Repo
  • 能做 Agent 工作流
  • 能做長 Context reasoning
  • 能做 Tool Calling
  • 能理解大型專案

這跟以前單純「補程式碼」的模型完全不同。


Ollama 部署建議

安裝模型

ollama pull qwen3.6:27b-coding-mxfp8

執行模型

ollama run qwen3.6:27b-coding-mxfp8

開放 API

export OLLAMA_HOST=0.0.0.0:11434

NVIDIA Spark 最佳化建議

建議環境變數:

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"

適合搭配的工具

Qwen 3.6 很適合:

  • Continue
  • Claude Code
  • OpenHands
  • Hermes Agent
  • OpenWebUI
  • Cursor 類工具
  • Browser-use
  • AI Agent Workflow

結論

如果你現在想打造:

  • 本地 AI Coding 環境
  • AI Agent 平台
  • 多人 AI IDE
  • 本地 Claude Code
  • Ollama SaaS

那麼:

Qwen 3.6 幾乎是目前最值得研究的一條路。

尤其:

qwen3.6:27b-coding-mxfp8

我認為:

這是目前 NVIDIA Spark 上:

最平衡、最實用、最值得長期使用的本地 Coding 模型之一。

參考資料

【Hermes Agent WebUI 正式登場】比 OpenClaw 更強?AI Agent 進入「可視化時代」!

【Hermes Agent WebUI 正式登場】比 OpenClaw 更強?AI Agent 進入「可視化時代」!

🧠 Hermes Agent 是什麼?

Hermes Agent 是由 Nous Research 推出的開源 AI Agent 框架,具備:

  • 🔁 跨對話記憶(Memory)
  • 🧠 技能(Skill)可持續累積
  • 🌐 內建網頁瀏覽與工具調用
  • ⏱️ 任務排程(Cron-like)
  • 🔌 OpenAI 相容 API(可接各種 LLM)

👉 本質上,它不是單純聊天機器人,而是「可執行任務的 AI 系統」


🖥️ Hermes WebUI(Dashboard)帶來什麼改變?

1️⃣ 從 CLI → GUI 的巨大轉變

過去:

  • OpenClaw / Agent 系統 → CLI + config + prompt

現在:

  • Hermes WebUI → 點擊操作 + 視覺化管理

👉 這是 AI Agent 商業化的關鍵一步


2️⃣ 多 Agent 管理(未來 SaaS 核心)

透過 WebUI,可以:

  • 管理多個 Agent
  • 設定不同任務流程
  • 控制記憶與技能

👉 這意味著:
👉 你可以做「多人 AI 平台」


3️⃣ 技能(Skill)可視化

Hermes 最大亮點:

任務會被記錄成「技能」,並可重複使用

例如:

  • 自動寫報告
  • 自動抓資料
  • 自動操作瀏覽器

👉 這其實就是:
👉 AI workflow engine(未來企業標準)


Hermes 實作

先更新到最新版本

hermes update

然後就可以直接啟用 hermes webui

hermes dashboard

之後就可以用瀏覽器使用,預設是 http://localhost:9119/

🔍 Hermes WebUI 深度觀察(關鍵洞察)

💡 與 Open WebUI 深度整合

在社群中有人指出:

Hermes 可以當成「有狀態的 LLM endpoint」

意思是:

  • WebUI(前端)
  • Hermes(Agent)
  • LLM(模型)

👉 三層架構:

User → WebUI → Hermes Agent → LL

「Hermes 開箱就像調教一週的 OpenClaw」

官方資訊

https://docs.openwebui.com/getting-started/quick-start/connect-an-agent/hermes-agent

第三方套件

https://github.com/nesquena/hermes-webui

手機離線跑 AI!Google Gemma 4 + AI Edge Gallery 完整解析(免網路也能用)

手機離線跑 AI!Google Gemma 4 + AI Edge Gallery 完整解析(免網路也能用)

近年 AI 發展幾乎都依賴雲端,但現在 Google 正在顛覆這一切,透過最新的 Google AI Edge Gallery App,你已經可以在手機上「離線」直接運行 Gemma 4 大模型,不只文字對話,還能做到圖片理解、語音應用,甚至 AI Agent。

👉 換句話說:
你的手機,正在變成一台隨身 AI 伺服器。

📱 什麼是 Google AI Edge Gallery?

Google AI Edge Gallery 是 Google 推出的開源應用,讓使用者可以:

  • 在手機上下載 AI 模型
  • 完全「離線」執行
  • 不需要連網、不上傳資料

👉 也就是「On-device AI(裝置端 AI)」

📌 重點特色:

  • 🔒 完全隱私(資料不離開手機)
  • 📡 完全離線(無網路也能用)
  • ⚡ 低延遲(不用等雲端回應)

這款 App 主打「直接在硬體上運行生成式 AI」,讓手機具備高效 AI 推理能力


🧠 Gemma 4 是什麼?為什麼這麼強?

Gemma 4 是 Google 最新開源大模型,基於 Gemini 技術打造。

👉 核心重點:

  • 支援多種尺寸(可跑在手機)
  • 強化推理能力與邏輯能力
  • 可本地執行(Edge AI)

目前部分版本(如 E2B / E4B)已經可以在手機透過 AI Edge Gallery 直接跑

👉 簡單講:

類型傳統 AIGemma 4
運算位置雲端本地(手機)
隱私
延遲
成本訂閱制免費

🖼️ 不只是聊天:圖片+語音也能搞定

這次最關鍵的不是「能聊天」,而是👇

🔍 多模態能力(Multimodal)

Gemma 4 + Edge AI 已經可以支援:

  • 📷 圖片理解(Image Recognition)
  • 🎤 語音相關應用(Speech)
  • 🧾 OCR / 文件理解
  • 🤖 Agent 自動任務

👉 代表未來:

手機 AI 可以直接「看圖、聽聲音、做決策」


⚙️ 實際運作方式

👉 關鍵技術:
  • 模型量化(Quantization)
  • 邊緣推論(Edge Inference)
  • NPU 加速

這也是為什麼現在手機能跑 AI 的核心原因。


🧪 實測重點

✔ 優點

  • 不用網路也能用 AI
  • 資料完全私密
  • 速度比雲端更即時
  • 免費使用

❌ 缺點

  • 模型體積大(2GB~5GB)
  • 手機會發熱
  • 功能還在成長中

🤖 AI Agent 能力(未來最可怕的地方)

AI Edge Gallery 還支援「Agent Skills」:

  • 可接工具(如地圖、知識庫)
  • 可自動完成任務
  • 可擴展插件

👉 官方甚至強調:

AI 可以從單純聊天變成「主動助理」


🌍 這代表什麼?(重點分析)

這不只是 App,而是產業轉折點👇

1️⃣ AI 從「雲端」走向「個人設備」

  • ChatGPT → 雲端 AI
  • Gemma 4 → 個人 AI

2️⃣ AI 成為手機標配(像相機一樣)

未來:

  • 每支手機都有 AI
  • AI 常駐本地運行
  • 即時處理所有需求

3️⃣ 新創機會爆炸(你可以做)

結合你現在在做的 AI Agent / LangChain:

👉 你可以做:

  • 本地 AI 房仲助理
  • 離線 AI CRM
  • 私有 AI 商業分析工具
  • Edge AI SaaS(超有機會)

🧭 實際使用流程(超簡單)

  1. 安裝 App(Play Store / iOS)
  2. 下載模型(Gemma 4)
  3. 開始使用(Chat / Image / Voice)

👉 約 5 分鐘內完成


🏁 結論:AI 正在「回到你手上」

Google 這一步很關鍵:

👉 AI 不再只是雲端服務
👉 而是變成「你手機的一部分」

未來 3 年:

每個人都會有一個「離線 AI 助理」

而你現在就可以先卡位。

官方網頁

https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&pli=1

https://github.com/google-ai-edge/gallery?tab=readme-ov-file

OpenRouter:輕鬆接入多種大型語言模型的統一平台

OpenRouter:輕鬆接入多種大型語言模型的統一平台

OpenRouter 是一個統一的大型語言模型(LLM)API 服務平台,可以讓使用者透過單一介面訪問多種大型語言模型。

主要特點:

  • 多模型支援: OpenRouter 集成了多種預訓練模型,如 GPT-4、Gemini、Claude、DALL-E 等,按需求選擇適合的模型。
  • 易於集成: 提供統一的 API 介面,方便與現有系統整合,無需自行部署和維護模型。
  • 成本效益: 透過 API 調用,使用者無需購買昂貴的 GPU 伺服器,降低了硬體成本。

使用方法:

  1. 註冊帳號: 使用 Google 帳號即可快速註冊 OpenRouter。
  2. 選擇模型: 在平台上瀏覽並選擇適合的模型,部分模型提供免費使用。
  3. 調用 API: 使用統一的 API 介面,將選定的模型整合到您的應用中。

Cline 整合

OpenRouter 與 Cline 的整合為開發者提供了強大的 AI 編程體驗,Cline 是一款集成於 VSCode 的 AI 編程助手,支援多種大型語言模型(LLM),如 OpenAI、Anthropic、Mistral 等,透過 OpenRouter,Cline 能夠統一調用這些模型,簡化了不同模型之間的切換和管理,使用者只需在 Cline 的設定中選擇 OpenRouter 作為 API 提供者,並輸入相應的 API 金鑰,即可開始使用多種模型進行開發。這種整合不僅提升了開發效率,還降低了使用多模型的技術門檻。

DeepSeek R1

OpenRouter 現在也支援 DeepSeek R1 模型,DeepSeek R1 是一款高性能的開源 AI 推理模型,具有強大的數學、編程和自然語言推理能力。透過 OpenRouter,開發者可以在 Cline 中輕鬆調用 DeepSeek R1 模型,享受其強大的推理能力。這進一步豐富了開發者的工具選擇,讓他們能夠根據項目需求選擇最適合的模型。