Select Page
Llama-3.2-90B-Vision 實戰:本地端影片偵探與多模態分析完整解析

Llama-3.2-90B-Vision 實戰:本地端影片偵探與多模態分析完整解析

前言:為什麼要做「影片偵探」?

隨著監控攝影機、行車紀錄器、門禁與智慧製造設備的大量部署,「影片」早已成為企業與政府最重要的資料來源之一。然而,影片資料無法被傳統文字搜尋系統理解,長時間的人工作業也帶來極高成本。

這正是「影片偵探(Video Detective)」的價值所在——
讓 AI 看懂影片內容、理解畫面語意、並能以自然語言回答問題

而在 2024 年 9 月 25 日,Meta 推出的 Llama-3.2-90B-Vision(Vision 3.2 90B),正式讓「本地端、多模態、可商業應用」的影片理解系統成為可能。


Llama-3.2-90B-Vision 模型簡介

Vision 3.2 90B 是 Meta 在 Llama 3.2 系列中最強大的開源多模態模型(VLM),也是目前開源社群中少數能與封閉模型正面競爭的選擇。

核心規格與特點

  • 模型規模
    900 億個參數(90B),為 Llama 3.2 系列最大版本
  • 視覺處理能力
    • 圖像理解
    • 圖像描述(Image Captioning)
    • 視覺問答(VQA)
    • 圖表與截圖解析(Excel / PDF / 監控畫面)
  • 技術架構
    採用 Adapter Weights,將視覺編碼器整合至 Llama 3 語言模型
  • 上下文長度
    高達 128K tokens,可處理長影片摘要與多畫面分析
  • 效能表現
    在多模態基準測試中,接近 GPT-4o-mini、Claude 3 Haiku
  • 硬體需求
    通常需要多張 NVIDIA A100 / H100 GPU 進行推理

官方資源:


什麼是「影片偵探」?

「影片偵探」並不是單一模型,而是一套 多階段 AI 架構

  1. 影格抽取(Frame Sampling)
  2. 物件 / 人臉偵測(YOLO / yolo face)
  3. 視覺語意理解(Llama-3.2-90B-Vision)
  4. 語意摘要與事件推論
  5. 自然語言查詢與回應

使用者可以直接詢問:

「這段影片中,有沒有可疑人物?」
「哪一段出現未授權進入?」
「請總結這 2 小時監控畫面的重點事件」


為何選擇 Llama-3.2-90B-Vision?

1️⃣ 本地端部署(On-Premise)

對於以下場景尤其重要:

  • 政府監控系統
  • 金融機構
  • 工廠產線
  • 企業內部資安影像

資料不出內網、不上雲端,符合資安與法規要求。

透過 Ollama 即可在本地部署 Vision 3.2:

👉 https://ollama.com/library/llama3.2-vision:90b

參考教學:


2️⃣ 高度客製化的影片理解流程

你可以自由設計:

  • 先用 YOLO / yolo face 做人臉與物件偵測
  • 再將關鍵影格丟給 Llama-3.2-90B-Vision 理解語意
  • 根據產業需求自訂 Prompt 與規則

例如:

  • 工地安全(是否未戴安全帽)
  • 店面防盜(可疑行為模式)
  • 智慧製造(異常操作流程)

3️⃣ 可合法商業應用的開源模型

與多數封閉 API 不同,Llama 3.2 系列具備商業使用條款,適合:

  • SaaS 影片分析平台
  • 企業內部 AI 系統
  • 客製化專案與整合案

同時避免:

  • API 呼叫成本失控
  • 雲端延遲
  • 資料外洩風險

架構範例:影片偵探系統設計

線上體驗與 API 使用方式

如果暫時沒有高階 GPU,也可以使用 NVIDIA 官方提供的線上版本:


實作系統

影片偵探 Prompt 範例(可直接用)

Prompt 1:單張關鍵影格「事件描述 + 可疑度」

用途:把 YOLO 的偵測結果 + 影格一起丟給 Vision 3.2,產出可索引的敘述。
(強烈建議把 YOLO metadata 一起餵,讓 VLM 不用「瞎猜」類別與位置)

你是一個「影片偵探」AI,負責為監控影格做事件描述與風險判讀。
請根據:
1) 影格畫面內容
2) 我提供的偵測結果(物件類別、bbox、信心值)
輸出結構化 JSON,方便後續索引與查詢。

規則:
- 不要編造畫面中不存在的事物。
- 若畫面資訊不足,請在 unsure 字段說明原因。
- suspicious_score 0~100:越高越可疑,但必須用畫面線索與偵測結果解釋。
- 需同時輸出一段適合全文檢索的繁體中文摘要 summary_zh。

輸入:
timestamp: {{timestamp}}
camera_id: {{camera_id}}
detections: {{yolo_detections_json}}
image: <提供影像>

輸出 JSON 欄位:
{
  "timestamp": "...",
  "camera_id": "...",
  "scene_summary": "...",
  "entities": [
    {"type": "...", "count": 1, "notable": "..."}
  ],
  "actions": ["..."],
  "suspicious_score": 0,
  "suspicious_reasons": ["..."],
  "unsure": ["..."],
  "summary_zh": "..."
}

Prompt 2:多張影格「跨時間軸事件摘要」

用途:把同一事件的多張關鍵影格(例如 5~12 張)一次丟給 128K context,做「時間序列推論」

你是一個監控「影片偵探」AI。以下提供同一段時間序列的多張關鍵影格,
每張都有 timestamp 與偵測結果。請完成:

1) 以時間順序描述發生了什麼事(避免臆測)。
2) 是否存在可疑行為?若有,指出關鍵時間點與依據。
3) 產出適合儲存到事件資料庫的 JSON(含 event_type、start/end、關聯track_id)。

輸入格式(重複多次):
- frame_i.timestamp: ...
- frame_i.detections: ...
- frame_i.image: <圖>

輸出:
- timeline_bullets(條列,含時間)
- event_json:
{
  "event_type": "...",
  "start_time": "...",
  "end_time": "...",
  "actors": [{"track_id":"...","type":"person/vehicle","notes":"..."}],
  "evidence": [{"timestamp":"...","what":"..."}],
  "risk_level": "low/medium/high",
  "search_keywords_zh": ["..."]
}

Prompt 3:使用者查詢「找片段 + 佐證」

用途:RAG 從索引庫找出候選事件後,叫模型做最後整合回答。

你是影片偵探助理。你會收到:
- 使用者問題
- 檢索得到的候選事件清單(含摘要、時間、相機、佐證影格描述)

請:
1) 直接回答問題(繁體中文)
2) 附上最相關的事件時間範圍(start~end)
3) 列出 1~3 個佐證點(引用候選事件的 evidence)
4) 若資訊不足,說明缺什麼

輸入:
question: {{user_question}}
candidates: {{retrieved_events_json}}

輸出:
{
  "answer_zh": "...",
  "best_matches": [
    {"camera_id":"...","time_range":"...","why":"...","evidence":["..."]}
  ],
  "missing_info": ["..."]
}

YOLO + Vision 3.2 實作流程範例

下面是一個「可落地」的最小可行流程(MVP)

Step 0:選擇部署模式

  • 本地端(推薦):Ollama 跑 llama3.2-vision:90b(需強 GPU/多卡)
  • 先用線上 API 驗證流程:NVIDIA 的 Llama-3.2-90B-Vision Instruct(把 pipeline 跑通再回本地)

Step 1:影片 → 影格抽取(Frame Sampling)

策略建議:

  • 監控:每秒 1~2 張 + 場景切分(scene change)
  • 行車:依速度/光流變化調整取樣
  • 事件型:偵測到人/車才加密取樣

Python(OpenCV)骨架:

import cv2
import os

def extract_frames(video_path, out_dir, fps_sample=1):
    os.makedirs(out_dir, exist_ok=True)
    cap = cv2.VideoCapture(video_path)
    fps = cap.get(cv2.CAP_PROP_FPS) or 30
    step = max(int(fps / fps_sample), 1)

    idx = 0
    frame_id = 0
    while True:
        ok, frame = cap.read()
        if not ok:
            break
        if frame_id % step == 0:
            out_path = os.path.join(out_dir, f"frame_{idx:06d}.jpg")
            cv2.imwrite(out_path, frame)
            idx += 1
        frame_id += 1

    cap.release()
    return idx

Step 2:影格 → YOLO / yolo face 偵測(產生 metadata)

可以用:

  • YOLOv8 / YOLOv10 做物件、人、車
  • yolo face(或更強的人臉模型)做臉部框
  • 之後再加 ByteTrack/DeepSORT 形成 track_id

偵測輸出建議格式(JSON):

[
  {"type":"person","conf":0.92,"bbox":[x1,y1,x2,y2]},
  {"type":"car","conf":0.88,"bbox":[x1,y1,x2,y2]},
  {"type":"face","conf":0.81,"bbox":[x1,y1,x2,y2]}
]

Step 3:挑關鍵影格(降低 VLM 成本)

常見挑選法:

  • 有偵測到 person/vehicle 才送 VLM
  • 同一 track_id 每 N 秒只取 1 張代表影格
  • 有事件觸發(越線/闖入/停留過久)才送 VLM

Step 4:送進 Vision 3.2 做語意理解(Ollama 版本)

若你用 Ollama,本質上是:影像 + prompt +(可選)metadata → 回傳描述 JSON。

概念請長這樣:

  1. 把影格讀成 base64 或直接用 Ollama SDK 的 image 欄位
  2. prompt 內含 timestamp、camera_id、detections
  3. 要求模型「輸出 JSON」

依你使用的 Ollama client 調整:

import json

def build_prompt(ts, cam, detections):
    return f"""
你是一個影片偵探AI。請依據影像與偵測結果輸出JSON(繁體中文)。

timestamp: {ts}
camera_id: {cam}
detections: {json.dumps(detections, ensure_ascii=False)}

輸出JSON欄位:
{{
  "timestamp": "...",
  "camera_id": "...",
  "scene_summary": "...",
  "actions": ["..."],
  "suspicious_score": 0,
  "suspicious_reasons": ["..."],
  "summary_zh": "..."
}}
"""

# 送給 Ollama 的地方,依你使用的套件/HTTP API 填上:
# response = ollama.chat(model="llama3.2-vision:90b", messages=[...], images=[...])

Step 5:事件彙整 + 建索引(讓你能「用中文搜影片」)

你至少要存三種資料:

  1. frame-level:每張影格摘要 + detections
  2. event-level:跨影格彙整(start/end、actors、evidence)
  3. 索引:
    • 向量索引(embedding)→ 語意搜尋
    • 關鍵字索引(全文)→ 精準查詢(例如「紅色帽子」「白色車」)

Step 6:查詢(RAG)→ 回答 + 佐證時間軸

流程:

  • 使用者問:「昨天晚上 10 點到 11 點,有沒有人在後門徘徊?」
  • 檢索 event/frame 索引找候選
  • 把候選 evidence 丟給 Prompt 3 做最終回答
  • 回傳:時間範圍 + 相機 + 佐證描述 +(可選)影格連結

你可以直接複製用的「最小資料結構」

frame_record

{
  "frame_id": "cam01_20251216_220501_000123",
  "camera_id": "cam01",
  "timestamp": "2025-12-16T22:05:01",
  "image_path": "/frames/cam01/frame_000123.jpg",
  "detections": [],
  "vlm_json": {},
  "summary_zh": "..."
}

event_record

{
  "event_id": "evt_20251216_cam01_0007",
  "camera_id": "cam01",
  "start_time": "2025-12-16T22:05:00",
  "end_time": "2025-12-16T22:06:30",
  "event_type": "徘徊/闖入/越線/遺留物/群聚",
  "actors": [{"track_id":"p12","type":"person"}],
  "evidence": [
    {"timestamp":"2025-12-16T22:05:15","what":"人物在後門附近停留,反覆靠近門把"}
  ],
  "risk_level": "medium",
  "search_keywords_zh": ["後門","徘徊","可疑人物"]
}

事件規則怎麼定義(越線 / 闖入 / 停留)

A. 共同前置:座標系與 ROI 設定

建議每台攝影機都做一份設定檔(JSON/YAML):

  • ROI 多邊形:例如「後門區域」「禁入區」「收銀台區」
  • Tripwire 線段:例如「門檻線」「圍籬線」
  • 方向向量(可選):判斷越線方向(外→內 / 內→外)

camera_rules.json(示例)

重點:事件規則「不要靠 VLM 猜」,VLM 用在「補語意」,規則用在「可重現、可商業合規」。

B. 越線(Tripwire Crossing)

定義:同一個 track_id 的「腳點/中心點」從線段一側移動到另一側,且跨越時間在合理範圍。

實作要點

  • 取 bbox 底部中心點(foot point)更準:
    foot = ((x1+x2)/2, y2)
  • 記錄上一幀 foot 在直線的「符號」(line side sign)
  • sign 改變(+ → – 或 – → +)= 可能越線
  • 若需要方向:檢查 crossing 前後的位置落在哪個 side

事件輸出

  • event_type: 越線
  • evidence: crossing 發生的 timestamp + 當下影格 id

C. 闖入(Intrusion into Restricted Zone)

定義:目標(person/vehicle)進入「restricted_zone」ROI,且停留超過 N 幀或 N 秒(避免抖動誤判)。

實作要點

  • 以 foot point 是否在多邊形內判斷(比中心點穩)
  • debounce:例如連續 5 幀在區域內才算「進入成立」
  • 退出同理:連續 5 幀不在區域內才算退出

事件輸出

  • event_type: 闖入
  • start_time = 進入成立時間
  • end_time = 退出成立時間

D. 停留 / 徘徊(Loitering)

定義:在指定 zone 內停留超過 min_seconds,且移動速度低於門檻(或移動距離很小但在區域內反覆)。

實作要點

  • per track_id 維護:
    • time_in_zone
    • path_length(foot 點累積距離)
    • avg_speed = path_length / time_in_zone
  • 停留成立條件(示例):
    • time_in_zone >= 20savg_speed <= 15 px/s
  • 可擴充「徘徊」:
    • 在 zone 內來回穿越同一條小線段超過 K 次
    • 或在 zone 內出入(進/出)頻繁

2) 追蹤器接 YOLO(track_id 穩定)

A. 建議組合

  • 偵測:YOLO(person/vehicle/bag…)
  • 追蹤:ByteTrack(速度快、穩)或 DeepSORT(更重但 ReID 強)
  • ID 穩定策略
    1. 只追固定類別:例如只追 person/vehicle(別把雜訊類也追)
    2. 信心值門檻 + NMS:減少跳框
    3. 遮擋容忍:追蹤器允許短暫 lost 再接回
    4. ReID(選配):若常遮擋、跨鏡頭才需要

B. 最小資料流(你系統該長這樣)

frame
  -> YOLO detections: [x1,y1,x2,y2, conf, cls]
  -> Tracker.update(detections)
  -> tracks: [track_id, bbox, cls, conf, state]
  -> event_rules.update(tracks, timestamp)

C. 追蹤輸出建議格式

[
  {"track_id":"p12","type":"person","conf":0.92,"bbox":[...],"foot":[...]}
]

關鍵:後續事件規則都以 track_id 為核心。VLM 的 actors 也引用 track_id,才能串起「時間序列」。

3) 向量索引與查詢(embedding schema、RAG prompt)

A. 你要索引什麼?(兩層:frame-level + event-level)

  • frame-level:細碎、量大,用於精確定位
  • event-level:濃縮、量小,用於查詢與回覆(最重要)

B. 建議的 Embedding Schema(event-level)

每個 event 存:

  • id, camera_id, start_time, end_time
  • event_type
  • actors(含 track_id、類別、特徵詞)
  • summary_zh(VLM + 規則融合)
  • evidence[](時間戳 + 發生描述 + frame_id)
  • keywords_zh[](用於 BM25)
  • embedding(由 summary_zh + keywords_zh 拼成)

event_embedding_text 建議組合

[事件類型] 闖入
[地點] cam01 後門 restricted_zone
[摘要] 一名人物在22:05進入禁入區,停留約35秒後離開。
[關鍵詞] 後門, 禁入區, 闖入, 可疑人物

C. 檢索策略(Hybrid Search)

  1. 關鍵字/BM25:找「後門」「白色車」「紅帽」這種明確詞
  2. 向量/語意:找「徘徊」「鬼鬼祟祟」「疑似踩點」這種抽象語意
  3. 合併 rerank:取 topK events,再丟給 LLM 做最終回答

D. RAG Prompt(查詢 → 回答 + 時間軸 + 點影格)

「可商業用」模板(配之前的 Prompt 3 進化版):

你是影片偵探助理。你會收到:
- 使用者問題 question(繁體中文)
- 候選事件 candidates(由索引檢索得到,含 summary_zh、時間、相機、evidence、frame_link)
你的任務是產生「可行動」的答案:

要求:
1) 先用 3~6 句回答使用者,務必引用 candidates 的內容,不要臆測。
2) 產生時間軸 timeline(依時間排序),每點包含:start~end、camera、event_type、1句描述、frame_link(若有)。
3) 如果 candidates 不足以回答,回 missing_info,並說明需要補哪段時間/哪個相機/哪種事件資料。
4) 全部輸出 JSON,方便前端直接渲染。

輸入:
question: {{question}}
candidates: {{candidates_json}}

輸出 JSON:
{
  "answer_zh": "...",
  "timeline": [
    {
      "camera_id": "...",
      "time_range": "YYYY-MM-DD HH:MM:SS ~ HH:MM:SS",
      "event_type": "...",
      "description": "...",
      "evidence": ["..."],
      "frame_links": ["..."]
    }
  ],
  "missing_info": ["..."]
}

4) 簡單 Web UI(查詢 → 回傳時間軸 → 點開影格)

我給你一個最小 MVP 架構:

A. API 設計(後端)

  • GET /api/search?q=...&from=...&to=...&camera=...
    • 回傳 RAG 結果 JSON(answer_zh + timeline)
  • GET /frames/<frame_id>.jpg
    • 靜態提供影格圖(或簽名 URL)

回傳 JSON(示例)

{
  "answer_zh":"在 22:05~22:06 期間,cam01 後門區域出現 1 次闖入事件...",
  "timeline":[
    {
      "camera_id":"cam01",
      "time_range":"2025-12-16 22:05:00 ~ 22:06:30",
      "event_type":"闖入",
      "description":"人物 p12 進入 restricted_zone 停留約35秒後離開。",
      "evidence":["22:05:15 人物靠近門把","22:06:10 人物離開區域"],
      "frame_links":["/frames/cam01_20251216_220515_000130.jpg"]
    }
  ],
  "missing_info":[]
}

B. 前端(純 HTML+JS 就能跑)

把這段存成 index.html,指向你的 API:

<!doctype html>
<html lang="zh-Hant">
<head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width,initial-scale=1" />
  <title>影片偵探 Demo</title>
  <style>
    body { font-family: system-ui, -apple-system, "Noto Sans TC", sans-serif; margin: 16px; }
    .row { display: flex; gap: 8px; flex-wrap: wrap; margin-bottom: 12px; }
    input, select, button { padding: 8px; }
    .card { border: 1px solid #ddd; border-radius: 12px; padding: 12px; margin: 10px 0; }
    .timeline-item { cursor: pointer; padding: 10px; border-radius: 10px; }
    .timeline-item:hover { background: #f5f5f5; }
    .grid { display: grid; grid-template-columns: 1fr 1fr; gap: 12px; }
    img { max-width: 100%; border-radius: 12px; border: 1px solid #eee; }
    pre { background:#fafafa; padding:10px; border-radius:10px; overflow:auto; }
  </style>
</head>
<body>
  <h1>影片偵探 Demo</h1>

  <div class="row">
    <input id="q" size="40" placeholder="例如:後門有沒有人徘徊?白色車出現在哪?" />
    <input id="from" type="datetime-local" />
    <input id="to" type="datetime-local" />
    <select id="camera">
      <option value="">全部相機</option>
      <option value="cam01">cam01</option>
      <option value="cam02">cam02</option>
    </select>
    <button id="btn">查詢</button>
  </div>

  <div class="grid">
    <div>
      <div class="card">
        <h3>答案</h3>
        <div id="answer">尚未查詢</div>
      </div>

      <div class="card">
        <h3>時間軸</h3>
        <div id="timeline"></div>
      </div>

      <div class="card">
        <h3>除錯(回傳 JSON)</h3>
        <pre id="raw">{}</pre>
      </div>
    </div>

    <div>
      <div class="card">
        <h3>影格預覽</h3>
        <div id="frameInfo">點選左側時間軸項目查看影格</div>
        <img id="frame" src="" alt="" style="display:none;" />
      </div>
    </div>
  </div>

<script>
  const $ = (id) => document.getElementById(id);

  function toISOParam(dtLocal) {
    // 直接傳給後端即可(你可在後端再轉時區)
    return dtLocal ? encodeURIComponent(dtLocal) : "";
  }

  function renderTimeline(items) {
    const root = $("timeline");
    root.innerHTML = "";
    if (!items || items.length === 0) {
      root.innerHTML = "<div>沒有找到事件</div>";
      return;
    }
    items.forEach((it, idx) => {
      const div = document.createElement("div");
      div.className = "timeline-item";
      div.innerHTML = `
        <div><b>${it.time_range}</b>|${it.camera_id}|${it.event_type}</div>
        <div>${it.description}</div>
      `;
      div.onclick = () => {
        const link = (it.frame_links && it.frame_links[0]) ? it.frame_links[0] : "";
        $("frameInfo").innerText = link ? `影格:${link}` : "此事件沒有影格連結";
        if (link) {
          $("frame").src = link;
          $("frame").style.display = "block";
        } else {
          $("frame").style.display = "none";
        }
      };
      root.appendChild(div);
    });
  }

  $("btn").onclick = async () => {
    const q = $("q").value.trim();
    const from = toISOParam($("from").value);
    const to = toISOParam($("to").value);
    const camera = encodeURIComponent($("camera").value);

    const url = `/api/search?q=${encodeURIComponent(q)}&from=${from}&to=${to}&camera=${camera}`;
    const res = await fetch(url);
    const data = await res.json();

    $("answer").innerText = data.answer_zh || "";
    renderTimeline(data.timeline || []);
    $("raw").innerText = JSON.stringify(data, null, 2);
  };
</script>
</body>
</html>

最小可跑的 Flask 後端實作(MVP)

最小可跑的 Flask 後端實作(MVP)

  • GET /api/search:用最簡單的「關鍵字 + 語意(可選)」搜尋事件,回傳前端需要的 answer_zh + timeline JSON
  • GET /frames/<path>:提供影格圖片(靜態檔)
  • 內建一份 data/events.json 假資料,讓你不用先把整個 pipeline 做完也能 Demo 起來
  • 前端就用你前面那份 index.html(我也一起放進 static/

你可以直接照以下檔案建立專案。

專案結構

video-detective-mvp/
  app.py
  requirements.txt
  data/
    events.json
  frames/
    cam01_20251216_220515_000130.jpg   (放你自己的影格檔)
  static/
    index.html

requirements.txt

Flask==3.0.3

data/events.json(假資料,可自行新增)

[
  {
    "event_id": "evt_20251216_cam01_0007",
    "camera_id": "cam01",
    "start_time": "2025-12-16T22:05:00",
    "end_time": "2025-12-16T22:06:30",
    "event_type": "闖入",
    "actors": [{"track_id":"p12","type":"person"}],
    "summary_zh": "一名人物進入後門禁入區,停留約35秒後離開。",
    "keywords_zh": ["後門","禁入區","闖入","可疑人物"],
    "evidence": [
      {"timestamp":"2025-12-16T22:05:15","what":"人物靠近門把並進入禁入區"},
      {"timestamp":"2025-12-16T22:06:10","what":"人物離開禁入區"}
    ],
    "frame_links": ["/frames/cam01_20251216_220515_000130.jpg"]
  },
  {
    "event_id": "evt_20251216_cam02_0011",
    "camera_id": "cam02",
    "start_time": "2025-12-16T21:40:10",
    "end_time": "2025-12-16T21:41:05",
    "event_type": "越線",
    "actors": [{"track_id":"v03","type":"vehicle"}],
    "summary_zh": "一輛車跨越門檻線由外往內進入區域。",
    "keywords_zh": ["越線","車輛","進入","門檻線"],
    "evidence": [
      {"timestamp":"2025-12-16T21:40:22","what":"車輛前輪跨越門檻線"}
    ],
    "frame_links": []
  },
  {
    "event_id": "evt_20251216_cam01_0009",
    "camera_id": "cam01",
    "start_time": "2025-12-16T23:10:00",
    "end_time": "2025-12-16T23:11:00",
    "event_type": "停留",
    "actors": [{"track_id":"p33","type":"person"}],
    "summary_zh": "一名人物在後門區域停留約60秒,移動緩慢,疑似徘徊。",
    "keywords_zh": ["後門","停留","徘徊","可疑"],
    "evidence": [
      {"timestamp":"2025-12-16T23:10:20","what":"人物在後門附近停留且來回踱步"}
    ],
    "frame_links": []
  }
]

static/index.html(直接用你前面 UI;這裡給一份可直接用的)

這份會呼叫 /api/search,點時間軸會開影格。

<!doctype html>
<html lang="zh-Hant">
<head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width,initial-scale=1" />
  <title>影片偵探 Demo</title>
  <style>
    body { font-family: system-ui, -apple-system, "Noto Sans TC", sans-serif; margin: 16px; }
    .row { display: flex; gap: 8px; flex-wrap: wrap; margin-bottom: 12px; }
    input, select, button { padding: 8px; }
    .card { border: 1px solid #ddd; border-radius: 12px; padding: 12px; margin: 10px 0; }
    .timeline-item { cursor: pointer; padding: 10px; border-radius: 10px; }
    .timeline-item:hover { background: #f5f5f5; }
    .grid { display: grid; grid-template-columns: 1fr 1fr; gap: 12px; }
    img { max-width: 100%; border-radius: 12px; border: 1px solid #eee; }
    pre { background:#fafafa; padding:10px; border-radius:10px; overflow:auto; }
  </style>
</head>
<body>
  <h1>影片偵探 Demo</h1>

  <div class="row">
    <input id="q" size="42" placeholder="例如:後門有沒有人徘徊?禁入區闖入?越線?" />
    <input id="from" type="datetime-local" />
    <input id="to" type="datetime-local" />
    <select id="camera">
      <option value="">全部相機</option>
      <option value="cam01">cam01</option>
      <option value="cam02">cam02</option>
    </select>
    <button id="btn">查詢</button>
  </div>

  <div class="grid">
    <div>
      <div class="card">
        <h3>答案</h3>
        <div id="answer">尚未查詢</div>
      </div>

      <div class="card">
        <h3>時間軸</h3>
        <div id="timeline"></div>
      </div>

      <div class="card">
        <h3>除錯(回傳 JSON)</h3>
        <pre id="raw">{}</pre>
      </div>
    </div>

    <div>
      <div class="card">
        <h3>影格預覽</h3>
        <div id="frameInfo">點選左側時間軸項目查看影格</div>
        <img id="frame" src="" alt="" style="display:none;" />
      </div>
    </div>
  </div>

<script>
  const $ = (id) => document.getElementById(id);

  function renderTimeline(items) {
    const root = $("timeline");
    root.innerHTML = "";
    if (!items || items.length === 0) {
      root.innerHTML = "<div>沒有找到事件</div>";
      return;
    }
    items.forEach((it) => {
      const div = document.createElement("div");
      div.className = "timeline-item";
      div.innerHTML = `
        <div><b>${it.time_range}</b>|${it.camera_id}|${it.event_type}</div>
        <div>${it.description}</div>
      `;
      div.onclick = () => {
        const link = (it.frame_links && it.frame_links[0]) ? it.frame_links[0] : "";
        $("frameInfo").innerText = link ? `影格:${link}` : "此事件沒有影格連結";
        if (link) {
          $("frame").src = link;
          $("frame").style.display = "block";
        } else {
          $("frame").style.display = "none";
        }
      };
      root.appendChild(div);
    });
  }

  $("btn").onclick = async () => {
    const q = $("q").value.trim();
    const from = $("from").value;
    const to = $("to").value;
    const camera = $("camera").value;

    const url = `/api/search?q=${encodeURIComponent(q)}&from=${encodeURIComponent(from)}&to=${encodeURIComponent(to)}&camera=${encodeURIComponent(camera)}`;
    const res = await fetch(url);
    const data = await res.json();

    $("answer").innerText = data.answer_zh || "";
    renderTimeline(data.timeline || []);
    $("raw").innerText = JSON.stringify(data, null, 2);
  };
</script>
</body>
</html>

app.py(Flask 後端:搜尋 + 回傳 timeline + 靜態影格)

from __future__ import annotations

import json
import os
from dataclasses import dataclass
from datetime import datetime
from typing import Any, Dict, List, Optional, Tuple

from flask import Flask, jsonify, request, send_from_directory


BASE_DIR = os.path.dirname(os.path.abspath(__file__))
DATA_PATH = os.path.join(BASE_DIR, "data", "events.json")
FRAMES_DIR = os.path.join(BASE_DIR, "frames")


def parse_dt(s: str) -> Optional[datetime]:
    """
    Accepts:
      - "" -> None
      - HTML datetime-local: "2025-12-16T22:05"
      - ISO: "2025-12-16T22:05:00"
    """
    if not s:
        return None
    s = s.strip()
    for fmt in ("%Y-%m-%dT%H:%M", "%Y-%m-%dT%H:%M:%S"):
        try:
            return datetime.strptime(s, fmt)
        except ValueError:
            pass
    # Fallback: try fromisoformat (may accept seconds/microseconds)
    try:
        return datetime.fromisoformat(s)
    except ValueError:
        return None


def load_events() -> List[Dict[str, Any]]:
    if not os.path.exists(DATA_PATH):
        return []
    with open(DATA_PATH, "r", encoding="utf-8") as f:
        return json.load(f)


def dt_in_range(start: datetime, end: datetime, q_from: Optional[datetime], q_to: Optional[datetime]) -> bool:
    if q_from and end < q_from:
        return False
    if q_to and start > q_to:
        return False
    return True


def text_score(query_tokens: List[str], event: Dict[str, Any]) -> int:
    """
    Minimal keyword scoring:
      - match in event_type, summary_zh, keywords_zh, evidence.what
    """
    blob_parts = []
    blob_parts.append(str(event.get("event_type", "")))
    blob_parts.append(str(event.get("summary_zh", "")))
    blob_parts.extend(event.get("keywords_zh", []) or [])
    for ev in event.get("evidence", []) or []:
        blob_parts.append(str(ev.get("what", "")))

    blob = " ".join(blob_parts).lower()
    score = 0
    for t in query_tokens:
        if not t:
            continue
        if t in blob:
            score += 10
    return score


def tokenize_zh(query: str) -> List[str]:
    """
    MVP 簡化版 tokenization:
    - 以空白切
    - 再把常見關鍵詞直接保留(你可改成 jieba/ckip/hfl 分詞)
    """
    q = (query or "").strip().lower()
    if not q:
        return []
    tokens = [x for x in q.replace(",", " ").replace(",", " ").split() if x]
    # 也把一些常見事件詞補入(避免使用者只打「徘徊」但資料用「停留」)
    synonyms = {
        "徘徊": ["停留"],
        "停留": ["徘徊"],
        "闖入": ["入侵", "禁入"],
        "越線": ["跨線", "穿越"],
        "後門": ["門口"]
    }
    expanded = []
    for t in tokens:
        expanded.append(t)
        for s in synonyms.get(t, []):
            expanded.append(s)
    return expanded


def build_timeline_item(e: Dict[str, Any]) -> Dict[str, Any]:
    def fmt_range(s: str, t: str) -> str:
        try:
            sdt = datetime.fromisoformat(s)
            tdt = datetime.fromisoformat(t)
            return f"{sdt:%Y-%m-%d %H:%M:%S} ~ {tdt:%Y-%m-%d %H:%M:%S}"
        except Exception:
            return f"{s} ~ {t}"

    evidence = []
    for ev in e.get("evidence", []) or []:
        ts = ev.get("timestamp", "")
        what = ev.get("what", "")
        if ts and what:
            evidence.append(f"{ts} {what}")
        elif what:
            evidence.append(what)

    return {
        "camera_id": e.get("camera_id", ""),
        "time_range": fmt_range(e.get("start_time", ""), e.get("end_time", "")),
        "event_type": e.get("event_type", ""),
        "description": e.get("summary_zh", ""),
        "evidence": evidence[:3],
        "frame_links": e.get("frame_links", []) or [],
    }


def build_answer(query: str, matched: List[Dict[str, Any]]) -> str:
    if not query.strip():
        return "請輸入查詢內容(例如:後門 徘徊、禁入區 闖入、越線)。"
    if not matched:
        return "沒有找到符合條件的事件。你可以嘗試放寬時間範圍、改用關鍵詞(例如:後門、闖入、停留、越線)。"

    # MVP:用最前面幾筆拼一段可讀答案(之後你可接 LLM/RAG)
    top = matched[:3]
    parts = []
    parts.append(f"找到 {len(matched)} 筆候選事件,最相關的如下:")
    for e in top:
        parts.append(f"- {e.get('camera_id','')}|{e.get('event_type','')}|{e.get('summary_zh','')}")
    return "\n".join(parts)


app = Flask(__name__, static_folder="static", static_url_path="/")


@app.get("/")
def index():
    # 直接用 static/index.html
    return app.send_static_file("index.html")


@app.get("/frames/<path:filename>")
def frames(filename: str):
    # 提供影格圖片
    return send_from_directory(FRAMES_DIR, filename)


@app.get("/api/search")
def api_search():
    q = request.args.get("q", "")
    camera = request.args.get("camera", "").strip()
    q_from = parse_dt(request.args.get("from", ""))
    q_to = parse_dt(request.args.get("to", ""))

    events = load_events()
    tokens = tokenize_zh(q)

    # 先做基本篩選(camera + time range)
    filtered = []
    for e in events:
        if camera and e.get("camera_id") != camera:
            continue
        s = parse_dt(e.get("start_time", "")) or datetime.min
        t = parse_dt(e.get("end_time", "")) or datetime.min
        if not dt_in_range(s, t, q_from, q_to):
            continue
        filtered.append(e)

    # 關鍵字打分排序(MVP)
    scored: List[Tuple[int, Dict[str, Any]]] = []
    for e in filtered:
        score = text_score(tokens, e)
        if tokens and score <= 0:
            continue
        scored.append((score, e))

    scored.sort(key=lambda x: x[0], reverse=True)
    matched = [e for _, e in scored][:20]

    resp = {
        "answer_zh": build_answer(q, matched),
        "timeline": [build_timeline_item(e) for e in matched],
        "missing_info": [] if matched else ["建議擴大時間範圍或指定相機,並使用關鍵字:後門、闖入、停留、越線。"],
    }
    return jsonify(resp)


if __name__ == "__main__":
    os.makedirs(FRAMES_DIR, exist_ok=True)
    app.run(host="0.0.0.0", port=5000, debug=True)

啟動方式

cd video-detective-mvp
python -m venv .venv
# Windows: .venv\Scripts\activate
source .venv/bin/activate

pip install -r requirements.txt
python app.py

打開瀏覽器:http://localhost:5000/ ,MVP 已經能跑 UI + 查詢 + 時間軸 + 點影格。接下來可以逐步替換:

build_answer() 換成 RAG(把 topK candidates 丟給 Llama-3.2-90B-Vision / 或先用任一 LLM)

data/events.json 換成資料庫(SQLite / PostgreSQL)

text_score() 換成 Hybrid Search

BM25(全文索引) + 向量索引(Qdrant/pgvector)

進階實用版本

SQLite 儲存 events(含初始化與匯入)
向量欄位介面(先 stub,未來可無痛換 Qdrant / pgvector)
事件詳情 API(/api/event/<id>,支援多影格 / 證據)
✅ SQLite(事件資料庫)
✅ Qdrant(Hybrid:向量語意 + 關鍵字)
/api/search + /api/event/<id> + /frames/...
✅ 前端 UI(查詢 → 時間軸 → 點事件 → 顯示 evidence + 多影格縮圖/預覽)
✅ ByteTrack「真正接法」我也給你兩種:可跑的簡易 IoU Tracker(保底) + ByteTrack
✅ Flask(單一服務)
✅ 影片抽幀(或直接讀 frames 資料夾)
✅ YOLO 偵測(Ultralytics)
✅ 追蹤(保底可跑 IoU Tracker;之後你只要替換 tracker 類別就能上 ByteTrack)
✅ 事件規則引擎(越線 / 闖入 / 停留)
✅ 自動寫入 SQLite(events.db)
✅ 自動重建 Qdrant 向量索引(可選:Qdrant 有開就做,沒開就跳過)
✅ 前端 UI 立刻能查到事件並點開影格

之後再補

cooldown 去重機制(避免事件爆量)

事件合併(同一個 track 的闖入/停留合併成單一 event,帶 start/end)

把 VLM(Ollama Vision 90B)用於事件摘要:只對「關鍵事件」抽 1~3 張影格做語意補強(成本更可控)


結語:Vision 3.2 90B 為開源影片 AI 帶來新世代

Llama-3.2-90B-Vision 不只是「能看圖的 LLM」,而是讓:

  • 影片搜尋
  • 監控分析
  • 行為理解
  • 事件推論

真正進入 本地端、可控、可商業化 的時代,對於想打造「影片偵探」的團隊而言,它是目前開源世界中最具實力的選擇之一

參考資料

https://mermaid.live

從監控到足球比賽追蹤-YOLO Face高速、準確、適用極端環境

從監控到足球比賽追蹤-YOLO Face高速、準確、適用極端環境

前言:為什麼需要專門的人臉辨識 YOLO?

在電腦視覺領域中,YOLO(You Only Look Once) 以「即時、快速、準確」聞名。然而,通用的物件偵測模型在面對「人臉」這種尺寸小、變化大、環境複雜的目標時,仍然存在效能瓶頸。

這正是 YOLO Face 誕生的原因——它是 YOLO 家族中,專為臉部辨識打造的專家級模型


什麼是 YOLO Face?

YOLO Face 是基於 YOLO 模型架構延伸而來的人臉偵測模型,由 YapaLab 開發並開源於 GitHub。
它在保留 YOLO 高速推論優勢的同時,針對人臉特徵進行最佳化訓練,使模型能在各種嚴苛條件下,仍能精準找出人臉位置。

📌 官方專案
👉 https://github.com/YapaLab/yolo-face


YOLO Face 的三大核心特色

🚀 1. 搭配 YOLO 模型框架,快速且準確地找出人臉

YOLO Face 繼承 YOLO 單階段(One-stage)偵測的優勢:

  • 單次前向推論即可完成偵測
  • 高 FPS,適合即時影像串流
  • 可部署於 GPU、Edge 裝置、嵌入式系統

這讓 YOLO Face 非常適合應用於:

  • 即時監控系統
  • 智慧門禁
  • 行動裝置或邊緣運算設備

🌙 2. 在黑暗或極度複雜環境中依然能偵測人臉

相較於傳統臉部偵測方法,YOLO Face 在訓練時納入多種困難場景:

  • 低光源、夜間畫面
  • 背光或強烈光影
  • 遮擋、多人重疊
  • 複雜背景干擾

即使在幾乎「看不清楚」的影像條件下,仍能穩定框出人臉位置,這對安防與戶外應用尤其重要。


⚽ 3. 準確且快速地追蹤足球比賽中的足球員

你可能會好奇:臉部辨識為何能應用在足球比賽?

答案是:
在高速運動、多人場景中,「臉部」是最穩定的身份線索之一。

YOLO Face 能夠:

  • 在快速移動的畫面中鎖定球員臉部
  • 協助後續的球員追蹤(Tracking)
  • 結合 Re-ID、戰術分析、轉播輔助系統

這讓 YOLO Face 不只是一個臉部辨識模型,更是運動分析與智慧影像的重要基石


YOLO Face 適合哪些應用場景?

  • 智慧監控與安防系統
  • 夜間人臉偵測
  • 體育賽事影像分析
  • 智慧城市
  • 邊緣運算(Edge AI)
  • 即時串流分析系統
Cursor 2.2 全新登場:視覺化編輯器與瀏覽器除錯,重新定義 Vibe Coding

Cursor 2.2 全新登場:視覺化編輯器與瀏覽器除錯,重新定義 Vibe Coding

最新推出的 Cursor 2.2,不僅加入了備受期待的 視覺化編輯器(Visual Editor),更讓 Agent 能夠直接使用瀏覽器進行除錯,大幅提升前端與全端開發的效率與準確度。

這次更新不只是功能疊加,而是從「Agent 如何理解你的專案」出發,重新設計了日誌處理、視覺回饋與開發環境感知能力,讓 AI 不再只是聊天式輔助,而是真正融入你的開發流程。


視覺化編輯器:讓 Agent「看得見」你的畫面

過去,AI 在除錯前端問題時,往往只能依賴文字描述或程式碼推測 UI 狀態;在 Cursor 2.2 中,這個限制被徹底打破。

以圖片提供視覺回饋

Cursor 2.2 將 瀏覽器螢幕截圖 直接整合進檔案讀取工具中,Agent 能夠「實際看到」當前的瀏覽器狀態,而不是依靠抽象的文字敘述。

這項能力帶來的好處包括:

  • 更精準理解版面配置與 UI 元件位置
  • 更容易發現 CSS、RWD、遮擋或互動錯誤
  • 大幅降低人為描述與 AI 理解之間的落差

對前端工程師而言,這代表 UI 除錯不再是猜測,而是視覺對齊


高效的日誌處理:Token 使用量大幅下降

在大型專案中,瀏覽器日誌往往又多又雜,過去 AI 必須讀取並總結大量輸出,既耗時又耗 token。

瀏覽器日誌寫入檔案,Agent 精準讀取

Cursor 2.2 將瀏覽器日誌直接寫入檔案,Agent 可以:

  • 使用 grep 搜尋特定錯誤或關鍵字
  • 只讀取「需要的行數」,而非整段輸出
  • 在保留完整上下文的同時,將 token 使用量降到最低

這讓 Agent 的行為更像一位資深工程師,而不是一次看完所有 log 的新手。


智慧提示:更聰明地理解日誌內容

除了能選擇性讀取,Cursor 2.2 還進一步強化 Agent 的判斷能力

額外上下文資訊輔助決策

Agent 在讀取日誌前,會先取得:

  • 日誌總行數
  • 關鍵內容的預覽片段

這讓 Agent 能夠更聰明地決定:

  • 是否需要深入檢查
  • 應該查看哪一段
  • 哪些資訊其實可以忽略

結果就是:更少無意義讀取,更快定位問題


開發伺服器感知能力:避免重複啟動與連接錯誤

在本地開發時,最常見的問題之一就是:

「伺服器其實已經在跑,但工具又幫你開了一個新的。」

Cursor 2.2 對此給出了解法。

自動偵測正在執行的開發伺服器

Agent 會被提示去偵測目前系統中:

  • 是否已有開發伺服器在執行
  • 實際使用的連接埠號碼

因此它能:

  • 直接連線到正確的服務
  • 避免啟動重複的伺服器
  • 不再「猜測」port

這對使用 Vite、Next.js、React、Vue 或後端 API 專案的開發者來說,體驗提升非常明顯。


為什麼 Cursor 2.2 是 Vibe Coding 的關鍵里程碑?

Cursor 2.2 的核心價值不只是「功能更多」,而是:

  • Agent 能 看懂畫面
  • Agent 能 精準讀 log
  • Agent 能 理解你的開發環境
  • Agent 更像一位真正參與專案的工程夥伴

你只要專注在設計與邏輯,AI 負責觀察、分析與除錯。

如果你正在尋找一個能真正提升開發節奏的 AI 編輯器,Cursor 2.2 絕對值得親自體驗。

👉 官方網站:https://cursor.com/zh-Hant/home
👉 功能說明:https://cursor.com/zh-Hant/docs/agent/browser#browser

電商必看!Topview AI 行銷影片實測:AI 虛擬人帶貨,低成本高轉換

電商必看!Topview AI 行銷影片實測:AI 虛擬人帶貨,低成本高轉換

只要一張產品圖,AI 就能直接拍片帶貨!

你還在為了拍產品影片煩惱嗎?
要找模特、租場地、剪影片,成本高又耗時?現在,只要一張產品圖,AI 就能直接幫你拍好完整的帶貨影片!

這次要介紹的,就是近期在電商圈與自媒體圈爆紅的 Topview AI,全新升級的 Topview Avatar 2 與 Avatar 4,已經把「AI 虛擬人帶貨」推進到全新等級。

不用真人出鏡、不用攝影棚、不用學剪輯,AI 直接生成 會說中文、唇形同步、動作自然的虛擬帶貨主播,真的非常誇張。


Topview AI 是什麼?為什麼這麼多人在用?

Topview AI 是一款專為行銷與電商打造的 AI 行銷影片生成工具,最大特色就是:

  • 只需要 產品圖片 + 文字腳本
  • AI 就能自動生成完整的 產品介紹、開箱、廣告影片
  • 適用於 電商賣家、接業配、自媒體、品牌行銷、個人 IP

現在很多賣家,已經直接用 Topview 來 批量產出短影音、廣告素材、Reels、Shorts、TikTok 帶貨影片


🔥 Topview Avatar 2 / Avatar 4 核心特色整理

✅ 能控制角色的手勢、動作(重點)

你不再只能站樁式講話,而是可以用文字指令控制虛擬人:

  • 指向產品
  • 拿起商品展示
  • 換姿勢、換站位
  • 走動、比手勢、互動式介紹

讓影片看起來 更像真人業配,而不是呆板 AI


✅ 支援穿戴展示,大小型商品都 OK

不論你是賣:

  • 衣服、褲子、鞋子、包包
  • 配件、飾品
  • 3C、保養品、小家電

Topview 都可以讓角色 直接穿上你的商品,或是 手持展示大型或小型商品,不再只是把圖片貼在旁邊。


✅ AI 直接生成虛擬帶貨主播(還會說中文)

Topview 的虛擬主播:

  • 支援 中文語音
  • 唇形高度同步
  • 語氣自然,適合業配、銷售、介紹影片
  • 可選寫實風、卡通風、寵物風、創意風

甚至你可以讓 卡通角色、虛擬人、寵物角色 幫你帶貨,內容更有記憶點。


✅ 任何產品 × 任何場景,自由搭配

現在你可以做到:

  • 把產品放進 任何背景場景
  • 讓角色穿上你指定的衣服
  • 拿著產品介紹特色
  • 搭配創意背景,拍出超有梗的廣告

不用再受限於現實拍攝條件,想像力就是你的攝影棚


🚀 Topview Avatar 4:直接把 AI 虛擬人拉到下一個等級

最新的 Topview Avatar 4,真的可以說是進化版中的進化版:

  • 上傳照片,生成你的 專屬虛擬分身
  • 可換身體、換服裝、換動作
  • 支援更長的影片(最長可到 2 分鐘)
  • 多種模板風格自由選擇
  • 更自然的口型同步與肢體動作

不論你是要經營 品牌虛擬人、個人 IP、或長期帶貨角色,這一版真的非常值得研究。


誰最適合用 Topview AI?

如果你是以下族群,Topview 幾乎是必備工具:

  • 電商賣家(蝦皮、Shopify、官網)
  • 接業配的自媒體創作者
  • 想經營虛擬人、個人 IP 的創作者
  • 行銷公司、品牌方
  • 不想出鏡,但又想拍影片的人

很多用戶已經靠 Topview 穩定產出內容+持續帶貨變現


💰 Topview 收費與方案說明

👉 Topview AI 註冊連結

https://www.topview.ai/?via=ecomplus
Topview 提供免費與付費會員方案:

免費會員

  • 每月 10 積分
  • 可生成基礎素材
  • 影片含浮水印

付費會員(建議)

  • 每月 29 美元
  • 每月 80 積分
  • 可製作高畫質 Avatar 2 / Avatar 4 影片
  • 平均每支影片成本不到台幣 50
  • 年繳方案價格更優惠

與傳統真人拍攝相比,Topview 能用 極低成本批量產出高品質行銷影片,對需要大量素材的賣家來說,CP 值非常高。

實際價格與方案請以 Topview 官網最新公告為主


官方網站

Gemini Nano Banana Pro 超強 15 大應用整理:設計師、行銷人、創作者必看

Gemini Nano Banana Pro 超強 15 大應用整理:設計師、行銷人、創作者必看

Nano Banana Pro 剛出,就馬上成為「圖像生成與視覺應用」領域的新標準,它不只是畫圖工具,而是一個高度可控、支援中文、能維持一致性的 AI 視覺引擎

以下整理 Google Nano Banana Pro 的 15 種超強應用場景,無論你是設計師、行銷企劃、教育工作者或產品經理,都能立即上手。

Google Nano Banana Pro

1️⃣ 簡報/企劃海報快速生成

只要輸入企劃主題與風格,Nano Banana 就能產出投影片主視覺、封面海報、提案插圖,大幅減少找素材與修圖時間。


2️⃣ 草圖秒變產品實景圖

手繪線稿、低擬真草圖,可直接轉為擬真產品照,特別適合工業設計、UI / UX、新創產品驗證。


3️⃣ 設計材質紋理

可精準生成木頭、金屬、皮革、布料、玻璃等高解析材質貼圖,支援不同光源與粗糙度設定。


4️⃣ 角色一致性

透過角色描述與參考設定,即使多次生成,也能維持臉型、服裝、風格高度一致,非常適合漫畫、品牌代言角色。


5️⃣ 品牌指南手冊

一次生成品牌色彩、字體風格、視覺範例,快速完成 Brand Book 視覺示意。


6️⃣ 生成各種尺寸

同一視覺可自動輸出 社群貼文、橫幅廣告、直式限動、網站 Banner 等多尺寸版本。


7️⃣ 食譜圖超清晰

針對食物細節表現極佳,油光、層次、質地自然,特別適合餐飲菜單、食譜部落格、外送平台


8️⃣ 多國語言菜單 Menu

結合 Gemini 的語言能力,可直接生成多國語言版本菜單圖片,且排版自然、不違和。


9️⃣ 景點/教材圖卡

可用於旅遊介紹、歷史教材、地理圖卡、兒童學習素材,風格可愛或寫實皆可。


🔟 風格轉換更精細

支援攝影風、插畫風、3D 風、日系、美式、復古等,且保留原圖構圖與細節


1️⃣1️⃣ 教學假桌面生成

快速生成「假作業系統畫面」、「教學用後台介面」,適合製作教學簡報與線上課程


1️⃣2️⃣ 腳本 → 連續劇照

輸入分鏡或劇本段落,即可生成連續一致的劇照畫面,對影視提案與動畫前期極有幫助。


1️⃣3️⃣ 中文超強

對繁體中文理解精準,無論是菜單、教材、標語、情境文字,都能自然呈現,不再需要英文轉譯


1️⃣4️⃣ 畫 3D 圖也可以

可生成擬 3D、等角視圖、產品爆炸圖概念,適合簡報與技術說明使用。


1️⃣5️⃣ 任意切換焦距

同一場景可切換廣角、標準、特寫、微距,視覺敘事能力大幅提升。


參考與官方資源

Filmora AI 賦能剪輯全面評測|直覺操作 x 專業效果一次到位

Filmora AI 賦能剪輯全面評測|直覺操作 x 專業效果一次到位

評測機構最佳影片剪輯軟體:Filmora AI 賦能,你也是剪輯大師

現代影片創作者越來越仰賴智能剪輯工具來提升效率與作品品質, Wondershare 旗下的 Filmora 便是一款兼具 易用性與 AI 能力 的影片剪輯軟體,無論你是新手、行銷人員、還是專業剪輯者,都能輕鬆上手並創作出具有專業感的作品。


🎬 一、直覺操作 + AI 加速創意流程

Filmora 提供清晰易懂的操作介面,搭配智能化的 AI 功能,讓剪輯流程不再繁瑣。無論你是初次剪片或進階創作者,都能有效縮短學習曲線並加速製作流程。Filmora 不只提供基本剪輯工具,更加入 AI 驅動的智能剪輯、自動字幕與語音處理等功能,大幅提升效率。


✏️ 二、鋼筆工具與動態路徑控制:精準掌握每一格畫面

其中 鋼筆工具(Pen Tool) 是 Filmora 一大亮點,可讓你:

  • 自由繪製動態路徑
  • 控制動態軌跡的曲線與速度
  • 套用到文字、圖像與圖層上
  • 透過 關鍵影格(Keyframes) 微調動作,使畫面過渡自然流暢

這項工具不需外部插件就能在時間軸上直接繪製動畫路徑,讓你打造更具故事性與視覺張力的動態畫面。


📊 三、動態圖表套用:讓資訊表現更具說服力

除了影片剪輯,Filmora 也支援將資料套用至 動態圖表,透過動畫與視覺效果強化資訊表現,不論是:

  • 行銷影片中的 KPI 呈現
  • 簡報影片中的數據分析
  • 產品報告或企劃影片

這功能超好用,可以做出很多超專業的YT他們的專業影片,可以讓抽象數據具體化、呈現更專業的視覺吸引力。

這種結合多媒體與資訊可視化的能力,是傳統剪輯工具較難一次做到的。整體來說,它非常適合 行銷影片與專業簡報內容製作


🤖 四、AI 擴增場景:智慧剪輯、字幕與生成效率提升

Filmora 不僅提供基礎剪輯功能,還整合了多項 AI 擴增工具

  • 智慧剪輯與自動選段:快速抽取影片精華片段,剪出短片或精簡版內容,大幅提高編輯效率。
  • AI 影片翻譯與動態字幕:支援多語字幕生成,甚至連人物唇型都可同步調整。
  • AI 去背與人像偵測:精準移除背景,讓場景創作更加靈活。
  • Copilot 2.0 智能助理:高效協助批次處理與素材搜尋。

這些 AI 加速工具使得剪輯過程不再只是 手動剪接,而是變成具策略性、智能化的創作流程。


📈 五、適合所有創作者的剪輯方案

Filmora 提供跨平台支援(Windows、macOS、iOS、Android),不論你是在電腦、平板或手機,都能隨時製作影片。內建豐富的 模板、特效、音樂與轉場效果,大幅提升作品的可看性與質感。

此外,官方也提供試用版讓你先體驗功能,再決定是否購買完整版。整體評價指出它非常適合社群短片、YouTube 影片與教學影片等多種創作場景。

🎬 Filmora 與 剪映 CapCut 的主要差異比較

🆚 1. 功能定位與使用者族群

  • Filmora:設計上結合 直覺操作界面 + 專業剪輯能力,非常適合從入門到進階剪輯者。Filmora 支援豐富的 AI 工具與精細控制功能,例如鋼筆路徑、關鍵影格等進階細節表現,適合製作行銷影片、專業簡報或內容品牌影片等。
  • 剪映(CapCut):由 TikTok / ByteDance 支援,主打 簡單、快速、免費 的剪輯體驗,對於製作短影片、社群內容非常友好,尤其適合初學者或需要大量快速輸出短影片的工作者。

🛠️ 2. 操作介面與學習曲線

  • Filmora:介面直覺但功能更全面,適合中階創作者深入調整每個細節。時間軸控制精準,支援雙時間軸、動態路徑與微調功能,提升影片細節掌控感。
  • 剪映:主打 極簡操作,拖放式編輯非常容易上手,對於不想投入太多剪輯學習時間的使用者尤其友善。

🤖 3. AI 自動化剪輯與進階功能

  • Filmora:提供包括 AI 智能蒙版、AI 去背、人像分離、動態字幕、AI 影片延長 等多種 AI 功能,可以用來提升影片品質與創意表現。
  • 剪映(CapCut):同樣具備 AI 自動字幕、AI 去背、熱門模板、一鍵成片 等工具,對於快速產出影片與社群導向內容非常有效。

🌐 4. 平台與成本

  • Filmora:提供 Windows、macOS 與行動裝置版本,功能完整但某些進階素材與模板可能需要額外付費或訂閱。
  • 剪映(CapCut):本身以免費使用為主(含大部分功能),無浮水印且可跨平台使用(例如手機、桌面與網頁版),對預算有限的創作者非常友好。奇寶網路 –

📈 5. 適用場景總結比較

對比項目Filmora剪映 CapCut
初學者上手難易⭐⭐⭐⭐⭐⭐⭐⭐
多軌與精細控制⭐⭐⭐⭐⭐⭐⭐⭐
AI 進階功能⭐⭐⭐⭐⭐⭐⭐
社群短影片效率⭐⭐⭐⭐⭐⭐⭐⭐⭐
專業影片剪輯⭐⭐⭐⭐⭐⭐
成本中等/付費方案免費為主

參考資料

官方網站

https://filmora.wondershare.tw/

延伸閱讀