Select Page

話說最近把 GB10 中的 ollama 給多人使用後就常常掛點,先把我的解方記錄下來,最後還是得用 vllm + QUENE 才能達到產品級

GPU OOM
500 Error
timeout

編輯設定檔

sudo nano /etc/systemd/system/ollama.service

建議的設定檔

[Service]

Environment="OLLAMA_HOST=0.0.0.0:11434"

Environment="OLLAMA_GPU_LAYERS=999"

Environment="OLLAMA_MODELS=/mnt/ai-models/ollama/models"

Environment="OLLAMA_FLASH_ATTENTION=1"

Environment="OLLAMA_KV_CACHE_TYPE=q8_0"

Environment="OLLAMA_NUM_PARALLEL=1"

Environment="OLLAMA_MAX_LOADED_MODELS=1"

Environment="OLLAMA_MAX_QUEUE=256"

Environment="OLLAMA_KEEP_ALIVE=10m"

為什麼這樣設

OLLAMA_NUM_PARALLEL=1

很多教學會設:

OLLAMA_NUM_PARALLEL=4

但實際上:

Parallel 越大,

Context Cache 會倍數成長。

例如:

NUM_PARALLEL=1VRAM 使用 30GBNUM_PARALLEL=4VRAM 使用 50GB+

很容易直接炸掉。


OLLAMA_MAX_LOADED_MODELS=1

避免:多個模型同時留在 VRAM。

多人使用時最容易發生。


OLLAMA_KEEP_ALIVE=10m

目前很多人設:

-1

永久保留模型。

結果:

VRAM 永遠不釋放。

改:

10m

10分鐘沒人用就卸載。