Nidia DGX Spark GB10 Ollama 最佳設定

話說最近把 GB10 中的 ollama 給多人使用後就常常掛點，先把我的解方記錄下來，最後還是得用 vllm + QUENE 才能達到產品級

GPU OOM
500 Error
timeout

內容目錄

編輯設定檔

sudo nano /etc/systemd/system/ollama.service

建議的設定檔

[Service]

Environment="OLLAMA_HOST=0.0.0.0:11434"

Environment="OLLAMA_GPU_LAYERS=999"

Environment="OLLAMA_MODELS=/mnt/ai-models/ollama/models"

Environment="OLLAMA_FLASH_ATTENTION=1"

Environment="OLLAMA_KV_CACHE_TYPE=q8_0"

Environment="OLLAMA_NUM_PARALLEL=1"

Environment="OLLAMA_MAX_LOADED_MODELS=1"

Environment="OLLAMA_MAX_QUEUE=256"

Environment="OLLAMA_KEEP_ALIVE=10m"

為什麼這樣設

OLLAMA_NUM_PARALLEL=1

很多教學會設：

OLLAMA_NUM_PARALLEL=4

但實際上：

Parallel 越大，

Context Cache 會倍數成長。

例如：

NUM_PARALLEL=1VRAM 使用 30GBNUM_PARALLEL=4VRAM 使用 50GB+

很容易直接炸掉。

OLLAMA_MAX_LOADED_MODELS=1

避免：多個模型同時留在 VRAM。

多人使用時最容易發生。

OLLAMA_KEEP_ALIVE=10m

目前很多人設：

-1

永久保留模型。

結果：

VRAM 永遠不釋放。

改：

10m

10分鐘沒人用就卸載。

Ollama 遠端連線教學：Windows PowerShell 連接 AI Server 完整指南

Ollama + Qwen 3.6 怎麼選？27B、35B、MXFP8、NVFP4 完整比較與推薦