AI Agent 實戰：用 Chrome 自動操作 + OpenCLI 控制瀏覽器與 Cursor 開發環境

by Rain Chu | 4 月 2, 2026 | Agent, AI

🧠 什麼是 OpenCLI？

OpenCLI 是一個結合 CLI（命令列）＋AI Agent＋瀏覽器控制能力 的工具。

它讓你可以：

用 AI 操作你的瀏覽器（真的操作你的 Chrome）
控制本地開發工具（例如 Cursor）
串接自訂 Plugin（抓資料、爬網站、整合 API）

👉 簡單來說，它是「本地版 AI Agent 作業系統」

🧠 核心組件說明

1️⃣ Runtime（最重要）

OpenCLI 本體負責：

任務調度
指令解析
Plugin 呼叫
狀態管理

👉 類似：

LangChain Agent Executor
或 AutoGPT 的 runtime

2️⃣ Plugin Adapter（YAML）

👉 這是 OpenCLI 最強的地方之一

你可以：

把網站轉成 CLI
定義資料抓取規則
建立 AI 工具鏈

📌 重點：

👉 不是寫程式，而是寫 YAML

3️⃣ Browser Bridge（關鍵黑科技）

OpenCLI 不是用 Selenium

👉 而是：

Playwright MCP bridge
Chrome DevTools Protocol（CDP）

👉 直接控制「你正在用的瀏覽器」

4️⃣ Channel / Gateway

負責：

AI ↔ 工具溝通
多工具整合
跨平台控制

⚡ 核心特色

1️⃣ 直接使用你的 Chrome（含登入狀態）

OpenCLI 最大的優勢之一：

👉 直接控制你正在使用的 Chrome

這代表：

✅ 可以使用已登入的帳號（Google、FB、銀行等）
✅ 可以存取 cookies / session
✅ 不需要重新登入

背後技術是：

👉 Chrome DevTools Protocol（CDP） ( opencli chrome外掛)

這比 Selenium 強的地方在於：

更快
更貼近真實使用者
可操作現有視窗

2️⃣ 控制 Cursor 寫程式（AI 自動開發）

Cursor 是目前非常強的 AI 編輯器，而 OpenCLI 可以直接操控它 👇

🛠️ 設定方式

Step 1：啟動 Cursor Debug 模式

cursor --remote-debugging-port=9226

⚠️ 注意：

視窗 不能關閉
這會開啟 CDP 讓 OpenCLI 控制

Step 2：設定環境變數

mac or linux
export OPENCLI_CDP_ENDPOINT="http://127.0.0.1:9226"

windows 版本
set OPENCLI_CDP_ENDPOINT=http://127.0.0.1:9226

Step 3：測試是否成功

opencli cursor model

Step 4：讓 AI 寫程式

opencli cursor send "新增一個 readme.txt"

👉 OpenCLI 會直接：

操控 Cursor
建立檔案
寫入內容

🔥 實際應用場景

自動生成專案 README
批次修改程式碼
自動補齊文件
AI Refactor 專案

👉 等於你有一個「真的會操作 IDE 的 AI 工程師」

3️⃣ 自訂 Plugin Adapter（YAML 抓網站）

OpenCLI 支援自訂 Plugin，透過 YAML 定義資料來源 👇

🧩 範例概念

name: fetch_news
description: 抓取新聞網站資料request:
  url: https://example.com/news
  method: GETparse:
  type: html
  selectors:
    title: h1.title
    content: div.article

👉 你可以做到：

抓網站資料
做 ETL pipeline
整合 API
建立 AI 工具鏈

📦 安裝 OpenCLI

官方資源：

GitHub：GitHub 上的 opencli repo
npm 套件：@jackwener/opencli

npm install -g @jackwener/opencli

安裝 OpenCLI Chorm extension

https://github.com/jackwener/opencli/releases

下載 opencli-extension.zip

解壓縮後放到 chrome 的擴充套件中

檢查安裝狀態

opencli doctor

看到上面的資訊就代表成功

可以測試用自己的帳號去查 B 站的最熱門影片了

opencli bilibili hot –limit 5

⚡ 三大核心能力

🔥 1. 把任何網站變 CLI

👉 這是 OpenCLI 最核心功能

例如：

opencli hackernews top
opencli twitter mentions
opencli gmail read

背後：

YAML 定義
AI 自動操作頁面

🔥 2. 直接用你 Chrome（含登入）

👉 這點非常關鍵（你前面有用到）

OpenCLI：

不模擬登入
不存 cookie
不重建 session

👉 直接用你 Chrome 裡的登入狀態

🔥 這代表什麼？

你可以：

操作 Gmail
操作 FB / IG
操作內部系統（SSO）

👉 完全不像傳統爬蟲

🔥 3. 控制本地工具（Cursor / VSCode）

👉 這才是 AI Agent 真正關鍵

OpenCLI 可以：

控制 Cursor
控制 CLI
操作本機檔案

👉 等於：

AI 可以「真的幫你寫程式」

🧪 真實應用場景

📌 1. 自動收集資訊

👉 每天做：

抓新聞
抓 Reddit
抓競品資料

📌 2. 自動寫程式

👉 例如：

opencli cursor send "建立 flask API"

📌 3. 自動操作後台

👉 例如：

WordPress 發文
Cloud Console 操作
CRM 系統

📌 4. 自動化工作流

👉 一句話：

👉「抓資料 → 分析 → 寫報告 → 存檔」

📱 延伸：手機 + Termux + OpenCLI

Termux + Android 手機也可以跑：

👉 搭配：

OpenClaw
OpenCLI

可以做到：

行動 AI Agent
手機自動操作
遠端開發

⚠️ 注意事項

🔒 安全性

因為它可以：

操控你的 Chrome
使用你的登入狀態

👉 建議：

不要開放外網
使用本機環境
控制權限

⚙️ 穩定性

CDP port 被占用會失敗
Cursor 視窗關閉會斷線
Plugin YAML 要寫正確

🎯 總結

OpenCLI 的本質不是工具，而是：👉 AI 的「手」

👉 AI 操作你電腦的入口