by Rain Chu | 6 月 2, 2026 | AI, Ollama, 模型
想把 Ollama Client 安裝在 Windows 筆電上,但模型實際運行在另一台 AI 伺服器(例如 NVIDIA Spark、Linux GPU 主機)嗎?
本文教你如何透過 PowerShell 指定遠端 Ollama Server,讓本機直接使用遠端模型資源。
Ollama 遠端架構說明
一般情況下,Ollama 預設會連接本機:
但如果你的 AI 模型部署在另一台主機,例如:
則可以透過環境變數指定遠端伺服器。
Step 1:設定遠端 Ollama Host
開啟 PowerShell:
$Env:OLLAMA_HOST = "192.168.0.1:11434"
若使用 HTTP 格式也可以:
$Env:OLLAMA_HOST = "http://192.168.0.1:11434"
建議使用第二種寫法較完整。
Step 2:確認連線是否成功
執行:
若成功,將會看到遠端伺服器上的模型清單:
NAME ID SIZEclaude xxxxxx 45 GBkimi-k2.5:cloud xxxxxx 22 GBqwen3:32b xxxxxx 20 GBdeepseek-r1:70b xxxxxx 42 GB
若出現:
Error: connection refused
請確認:
- 遠端 Ollama 是否啟動
- 防火牆是否開放 11434 Port
- Ollama 是否監聽 0.0.0.0
Linux 可檢查:
sudo ss -tlnp | grep 11434
正常應看到:
Step 3:啟動 Claude
確認模型存在後:
系統將直接透過遠端 Ollama 執行 Claude。
Step 4:指定模型版本
例如使用 Kimi K2.5 Cloud 版本:
ollama launch claude --model kimi-k2.5:cloud
也可以切換成其他模型:
ollama launch claude --model qwen3:32b
ollama launch claude --model deepseek-r1:70b
ollama launch claude --model gemma3:27b
每次開機自動設定 OLLAMA_HOST
如果不想每次都輸入:
$Env:OLLAMA_HOST = "192.168.0.240:11434"
可永久寫入 Windows 使用者環境變數:
[System.Environment]::SetEnvironmentVariable( "OLLAMA_HOST", "http://192.168.0.240:11434", "User")
重新開啟 PowerShell 後生效。
驗證:
輸出:
http://192.168.0.240:11434
常見問題排除
無法連線
測試:
curl http://192.168.0.240:11434/api/tags
若有回傳 JSON 表示正常。
Linux Server 未開放外部連線
編輯 Ollama Service:
sudo systemctl edit ollama
加入:
[Service]Environment="OLLAMA_HOST=0.0.0.0:11434"
重新載入:
sudo systemctl daemon-reloadsudo systemctl restart ollama
查看目前設定
Windows:
Linux:
透過設定 OLLAMA_HOST,即可讓 Windows 電腦上的 Ollama Client 直接連接遠端 AI 伺服器,將模型運算交由高效能 GPU 主機處理,而本機僅作為操作介面。
這種架構特別適合:
- NVIDIA Spark AI 工作站
- 家用 GPU 伺服器
- 多人共用 Ollama Server
- 企業內部 AI 平台
- AI 開發與測試環境
只需一行指令:
$Env:OLLAMA_HOST = "192.168.0.240:11434"
即可讓你的 Windows PC 立即接管遠端 Ollama 的所有模型能力。
by Rain Chu | 5 月 13, 2026 | AI, Ollama, 模型
最新的 Qwen 3.6,在 Ollama 上的表現,可以說是目前「本地 Coding 模型」中非常強勢的一個系列。
如果你正在使用:
- NVIDIA Spark
- RTX 顯卡
- Ollama
- OpenWebUI
- Continue
- Claude Code
- OpenHands
- Hermes Agent
- Cursor 類工具
- Apple
那麼 Qwen 3.6 幾乎一定值得研究。
這篇文章會完整解析:
- Qwen 3.6 每個版本差異
- 27B 與 35B 的差異
- MXFP8、NVFP4、BF16 是什麼
- 哪個最適合寫程式
- NVIDIA Spark 最推薦的配置
- Ollama 部署建議
- 多人 SaaS / AI Agent 最佳實務
什麼是 Qwen 3.6?
Qwen 是阿里巴巴推出的大型語言模型(LLM)系列。
最新的 Qwen 3.6,官方特別強調:
- Agentic Coding
- Repository-level Reasoning
- 長 Context 推理
- Thinking Preservation
也就是說:
它不只是會寫程式,而是開始能理解「整個專案」。
根據官方與 Ollama 頁面資訊,Qwen 3.6 在以下方面有明顯提升:
- 前端工作流理解
- 多檔案推理
- AI Agent Tool Calling
- 長上下文理解
- 歷史推理保留
- Repository 級別程式分析
為什麼 Qwen 3.6 很適合 Ollama?
Qwen 3.6 最大特色之一:
就是對本地部署非常友善。
目前 Ollama 已提供大量版本:
- 27B
- 35B-A3B
- Coding 版本
- Vision 版本
- MXFP8
- NVFP4
- BF16
- MLX
而且幾乎都支援:
- 256K Context
- 長文本推理
- 本地 AI Agent
- Coding Workflow
Qwen 3.6 各版本意思解析
qwen3.6:latest
這是官方最新預設版本。
特色:
適合:
但:
不是最強的 Coding 版本。
qwen3.6:27b
27B = 270億參數。
這是目前非常熱門的甜蜜點。
優點:
- Coding 能力很強
- 推理速度快
- VRAM 壓力較低
- 多人共享容易
非常適合:
- Continue
- Claude Code
- VSCode AI
- Agent Workflow
- 本地 Copilot
qwen3.6:35b
35B = 350億參數。
這類模型:
推理能力更強。
尤其在:
- 大型專案理解
- 架構設計
- Refactor
- 多檔案分析
會比 27B 更好。
但缺點:
什麼是 Coding 版本?
例如:
- qwen3.6:27b-coding-mxfp8
- qwen3.6:35b-a3b-coding-nvfp4
這些是:
專門針對寫程式優化的模型。
相較一般聊天模型:
它們更擅長:
- Python
- TypeScript
- Go
- Rust
- Docker
- Shell
- Kubernetes
- Debug
- Refactor
- AI Agent Tool Calling
官方也特別提到:
Qwen 3.6 在 Agentic Coding 與 Repository-level reasoning 上有大幅提升。
MXFP8、NVFP4、BF16 是什麼?
很多人看到:
會很混亂。
其實這些都是:
「量化格式」。
MXFP8
例如:
qwen3.6:27b-coding-mxfp8
這是 NVIDIA 新世代 FP8 格式。
特色:
- 品質高
- VRAM 使用合理
- 推理速度快
- 非常適合 NVIDIA GPU
目前很多人認為:
MXFP8 是本地 AI Coding 的最佳甜蜜點。
尤其適合:
- NVIDIA Spark
- RTX 4090
- RTX 5090
- 多 Agent Workflow
NVFP4
例如:
qwen3.6:27b-coding-nvfp4
這是 NVIDIA 的 4-bit 浮點量化格式。
特色:
但:
推理品質會稍微下降。
比較適合:
- SaaS 平台
- 多人 AI IDE
- 高併發 Agent
目前學術研究也開始針對 NVFP4 做最佳化。
BF16
例如:
qwen3.6:27b-coding-bf16
這幾乎是:
接近原始精度。
優點:
- 品質最高
- reasoning 最穩
- hallucination 較少
缺點:
適合:
MLX 是什麼?
MLX 是 Apple Silicon 專用。
例如:
什麼是 A3B?
例如:
qwen3.6:35b-a3b-coding-mxfp8
這代表:
MoE(Mixture of Experts)架構。
意思是:
模型總參數很大,但每次只啟用部分專家。
優點:
官方指出:
Qwen3.6-35B-A3B 僅啟動約 3B Active Parameters,但依然能超越部分大型 Dense 模型。
NVIDIA Spark 最推薦哪個?
如果你的環境是:
- NVIDIA Spark
- CUDA 13
- 128GB RAM
- Ollama
- OpenWebUI
- Continue
- Claude Code
- OpenHands
那我目前最推薦:
🥇 最推薦:qwen3.6:27b-coding-mxfp8
推薦原因:
- Coding 非常強
- 推理速度快
- VRAM 不容易爆
- Agent 很穩
- 長 Context 表現好
- 本地部署平衡最佳
這是目前真正的:
「Production Sweet Spot」。
🥈 高階推理推薦:qwen3.6:35b-a3b-coding-mxfp8
適合:
- AI Agent
- 大型專案
- 架構設計
- 多 Repo 分析
優點:
- reasoning 更強
- repository 理解更強
- 複雜任務更穩
缺點:
🥉 多人 SaaS 推薦:qwen3.6:27b-coding-nvfp4
適合:
- 多人共享
- SaaS
- AI IDE
- 高併發 Agent
優點:
但:
品質會略低於 MXFP8。
我自己的實戰看法
如果你是:
「真正要拿來工作」。
我目前認為:
Qwen 3.6 已經開始接近:
「本地版 Claude Code」。
尤其:
27B Coding MXFP8。
真的已經非常強。
它最大的優勢不是單純寫程式。
而是:
- 能理解整個 Repo
- 能做 Agent 工作流
- 能做長 Context reasoning
- 能做 Tool Calling
- 能理解大型專案
這跟以前單純「補程式碼」的模型完全不同。
Ollama 部署建議
安裝模型
ollama pull qwen3.6:27b-coding-mxfp8
執行模型
ollama run qwen3.6:27b-coding-mxfp8
開放 API
export OLLAMA_HOST=0.0.0.0:11434
NVIDIA Spark 最佳化建議
建議環境變數:
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=3"
Environment="OLLAMA_MAX_QUEUE=1024"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OMP_NUM_THREADS=32"
適合搭配的工具
Qwen 3.6 很適合:
- Continue
- Claude Code
- OpenHands
- Hermes Agent
- OpenWebUI
- Cursor 類工具
- Browser-use
- AI Agent Workflow
結論
如果你現在想打造:
- 本地 AI Coding 環境
- AI Agent 平台
- 多人 AI IDE
- 本地 Claude Code
- Ollama SaaS
那麼:
Qwen 3.6 幾乎是目前最值得研究的一條路。
尤其:
qwen3.6:27b-coding-mxfp8
我認為:
這是目前 NVIDIA Spark 上:
最平衡、最實用、最值得長期使用的本地 Coding 模型之一。
參考資料
by Rain Chu | 4 月 18, 2026 | AI, Hermes
🧠 Hermes Agent 是什麼?
Hermes Agent 是由 Nous Research 推出的開源 AI Agent 框架,具備:
- 🔁 跨對話記憶(Memory)
- 🧠 技能(Skill)可持續累積
- 🌐 內建網頁瀏覽與工具調用
- ⏱️ 任務排程(Cron-like)
- 🔌 OpenAI 相容 API(可接各種 LLM)
👉 本質上,它不是單純聊天機器人,而是「可執行任務的 AI 系統」
🖥️ Hermes WebUI(Dashboard)帶來什麼改變?
1️⃣ 從 CLI → GUI 的巨大轉變
過去:
- OpenClaw / Agent 系統 → CLI + config + prompt
現在:
- Hermes WebUI → 點擊操作 + 視覺化管理
👉 這是 AI Agent 商業化的關鍵一步
2️⃣ 多 Agent 管理(未來 SaaS 核心)
透過 WebUI,可以:
- 管理多個 Agent
- 設定不同任務流程
- 控制記憶與技能
👉 這意味著:
👉 你可以做「多人 AI 平台」
3️⃣ 技能(Skill)可視化
Hermes 最大亮點:
任務會被記錄成「技能」,並可重複使用
例如:
👉 這其實就是:
👉 AI workflow engine(未來企業標準)
Hermes 實作
先更新到最新版本
然後就可以直接啟用 hermes webui
之後就可以用瀏覽器使用,預設是 http://localhost:9119/
🔍 Hermes WebUI 深度觀察(關鍵洞察)
💡 與 Open WebUI 深度整合
在社群中有人指出:
Hermes 可以當成「有狀態的 LLM endpoint」
意思是:
- WebUI(前端)
- Hermes(Agent)
- LLM(模型)
👉 三層架構:
User → WebUI → Hermes Agent → LL
「Hermes 開箱就像調教一週的 OpenClaw」
官方資訊
https://docs.openwebui.com/getting-started/quick-start/connect-an-agent/hermes-agent
第三方套件
https://github.com/nesquena/hermes-webui
by Rain Chu | 4 月 10, 2026 | AI, google
近年 AI 發展幾乎都依賴雲端,但現在 Google 正在顛覆這一切,透過最新的 Google AI Edge Gallery App,你已經可以在手機上「離線」直接運行 Gemma 4 大模型,不只文字對話,還能做到圖片理解、語音應用,甚至 AI Agent。
👉 換句話說:
你的手機,正在變成一台隨身 AI 伺服器。
📱 什麼是 Google AI Edge Gallery?
Google AI Edge Gallery 是 Google 推出的開源應用,讓使用者可以:
- 在手機上下載 AI 模型
- 完全「離線」執行
- 不需要連網、不上傳資料
👉 也就是「On-device AI(裝置端 AI)」
📌 重點特色:
- 🔒 完全隱私(資料不離開手機)
- 📡 完全離線(無網路也能用)
- ⚡ 低延遲(不用等雲端回應)
這款 App 主打「直接在硬體上運行生成式 AI」,讓手機具備高效 AI 推理能力
🧠 Gemma 4 是什麼?為什麼這麼強?
Gemma 4 是 Google 最新開源大模型,基於 Gemini 技術打造。
👉 核心重點:
- 支援多種尺寸(可跑在手機)
- 強化推理能力與邏輯能力
- 可本地執行(Edge AI)
目前部分版本(如 E2B / E4B)已經可以在手機透過 AI Edge Gallery 直接跑
👉 簡單講:
| 類型 | 傳統 AI | Gemma 4 |
|---|
| 運算位置 | 雲端 | 本地(手機) |
| 隱私 | 低 | 高 |
| 延遲 | 高 | 低 |
| 成本 | 訂閱制 | 免費 |
🖼️ 不只是聊天:圖片+語音也能搞定
這次最關鍵的不是「能聊天」,而是👇
🔍 多模態能力(Multimodal)
Gemma 4 + Edge AI 已經可以支援:
- 📷 圖片理解(Image Recognition)
- 🎤 語音相關應用(Speech)
- 🧾 OCR / 文件理解
- 🤖 Agent 自動任務
👉 代表未來:
手機 AI 可以直接「看圖、聽聲音、做決策」
⚙️ 實際運作方式
👉 關鍵技術:
- 模型量化(Quantization)
- 邊緣推論(Edge Inference)
- NPU 加速
這也是為什麼現在手機能跑 AI 的核心原因。
🧪 實測重點
✔ 優點
- 不用網路也能用 AI
- 資料完全私密
- 速度比雲端更即時
- 免費使用
❌ 缺點
- 模型體積大(2GB~5GB)
- 手機會發熱
- 功能還在成長中
🤖 AI Agent 能力(未來最可怕的地方)
AI Edge Gallery 還支援「Agent Skills」:
- 可接工具(如地圖、知識庫)
- 可自動完成任務
- 可擴展插件
👉 官方甚至強調:
AI 可以從單純聊天變成「主動助理」
🌍 這代表什麼?(重點分析)
這不只是 App,而是產業轉折點👇
1️⃣ AI 從「雲端」走向「個人設備」
- ChatGPT → 雲端 AI
- Gemma 4 → 個人 AI
2️⃣ AI 成為手機標配(像相機一樣)
未來:
- 每支手機都有 AI
- AI 常駐本地運行
- 即時處理所有需求
3️⃣ 新創機會爆炸(你可以做)
結合你現在在做的 AI Agent / LangChain:
👉 你可以做:
- 本地 AI 房仲助理
- 離線 AI CRM
- 私有 AI 商業分析工具
- Edge AI SaaS(超有機會)
🧭 實際使用流程(超簡單)
- 安裝 App(Play Store / iOS)
- 下載模型(Gemma 4)
- 開始使用(Chat / Image / Voice)
👉 約 5 分鐘內完成
🏁 結論:AI 正在「回到你手上」
Google 這一步很關鍵:
👉 AI 不再只是雲端服務
👉 而是變成「你手機的一部分」
未來 3 年:
每個人都會有一個「離線 AI 助理」
而你現在就可以先卡位。
官方網頁
https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&pli=1
https://github.com/google-ai-edge/gallery?tab=readme-ov-file
by Rain Chu | 2 月 23, 2025 | AI, 程式開發
OpenRouter 是一個統一的大型語言模型(LLM)API 服務平台,可以讓使用者透過單一介面訪問多種大型語言模型。
主要特點:
- 多模型支援: OpenRouter 集成了多種預訓練模型,如 GPT-4、Gemini、Claude、DALL-E 等,按需求選擇適合的模型。
- 易於集成: 提供統一的 API 介面,方便與現有系統整合,無需自行部署和維護模型。
- 成本效益: 透過 API 調用,使用者無需購買昂貴的 GPU 伺服器,降低了硬體成本。
使用方法:
- 註冊帳號: 使用 Google 帳號即可快速註冊 OpenRouter。
- 選擇模型: 在平台上瀏覽並選擇適合的模型,部分模型提供免費使用。
- 調用 API: 使用統一的 API 介面,將選定的模型整合到您的應用中。
Cline 整合
OpenRouter 與 Cline 的整合為開發者提供了強大的 AI 編程體驗,Cline 是一款集成於 VSCode 的 AI 編程助手,支援多種大型語言模型(LLM),如 OpenAI、Anthropic、Mistral 等,透過 OpenRouter,Cline 能夠統一調用這些模型,簡化了不同模型之間的切換和管理,使用者只需在 Cline 的設定中選擇 OpenRouter 作為 API 提供者,並輸入相應的 API 金鑰,即可開始使用多種模型進行開發。這種整合不僅提升了開發效率,還降低了使用多模型的技術門檻。
DeepSeek R1
OpenRouter 現在也支援 DeepSeek R1 模型,DeepSeek R1 是一款高性能的開源 AI 推理模型,具有強大的數學、編程和自然語言推理能力。透過 OpenRouter,開發者可以在 Cline 中輕鬆調用 DeepSeek R1 模型,享受其強大的推理能力。這進一步豐富了開發者的工具選擇,讓他們能夠根據項目需求選擇最適合的模型。
近期留言