話說最近把 GB10 中的 ollama 給多人使用後就常常掛點,先把我的解方記錄下來,最後還是得用 vllm + QUENE 才能達到產品級
GPU OOM
500 Error
timeout
內容目錄
編輯設定檔
sudo nano /etc/systemd/system/ollama.service
建議的設定檔
[Service] Environment="OLLAMA_HOST=0.0.0.0:11434" Environment="OLLAMA_GPU_LAYERS=999" Environment="OLLAMA_MODELS=/mnt/ai-models/ollama/models" Environment="OLLAMA_FLASH_ATTENTION=1" Environment="OLLAMA_KV_CACHE_TYPE=q8_0" Environment="OLLAMA_NUM_PARALLEL=1" Environment="OLLAMA_MAX_LOADED_MODELS=1" Environment="OLLAMA_MAX_QUEUE=256" Environment="OLLAMA_KEEP_ALIVE=10m"
為什麼這樣設
OLLAMA_NUM_PARALLEL=1
很多教學會設:
OLLAMA_NUM_PARALLEL=4
但實際上:
Parallel 越大,
Context Cache 會倍數成長。
例如:
NUM_PARALLEL=1VRAM 使用 30GBNUM_PARALLEL=4VRAM 使用 50GB+
很容易直接炸掉。
OLLAMA_MAX_LOADED_MODELS=1
避免:多個模型同時留在 VRAM。
多人使用時最容易發生。
OLLAMA_KEEP_ALIVE=10m
目前很多人設:
-1
永久保留模型。
結果:
VRAM 永遠不釋放。
改:
10m
10分鐘沒人用就卸載。
近期留言