Select Page
AI Agent 實戰:用 Chrome 自動操作 + OpenCLI 控制瀏覽器與 Cursor 開發環境

AI Agent 實戰:用 Chrome 自動操作 + OpenCLI 控制瀏覽器與 Cursor 開發環境

🧠 什麼是 OpenCLI?

OpenCLI 是一個結合 CLI(命令列)+AI Agent+瀏覽器控制能力 的工具。

它讓你可以:

  • 用 AI 操作你的瀏覽器(真的操作你的 Chrome)
  • 控制本地開發工具(例如 Cursor)
  • 串接自訂 Plugin(抓資料、爬網站、整合 API)

👉 簡單來說,它是「本地版 AI Agent 作業系統」

🧠 核心組件說明

1️⃣ Runtime(最重要)

OpenCLI 本體負責:

  • 任務調度
  • 指令解析
  • Plugin 呼叫
  • 狀態管理

👉 類似:

  • LangChain Agent Executor
  • 或 AutoGPT 的 runtime

2️⃣ Plugin Adapter(YAML)

👉 這是 OpenCLI 最強的地方之一

你可以:

  • 把網站轉成 CLI
  • 定義資料抓取規則
  • 建立 AI 工具鏈

📌 重點:

👉 不是寫程式,而是寫 YAML


3️⃣ Browser Bridge(關鍵黑科技)

OpenCLI 不是用 Selenium

👉 而是:

  • Playwright MCP bridge
  • Chrome DevTools Protocol(CDP)

👉 直接控制「你正在用的瀏覽器」


4️⃣ Channel / Gateway

負責:

  • AI ↔ 工具 溝通
  • 多工具整合
  • 跨平台控制

⚡ 核心特色

1️⃣ 直接使用你的 Chrome(含登入狀態)

OpenCLI 最大的優勢之一:

👉 直接控制你正在使用的 Chrome

這代表:

  • ✅ 可以使用已登入的帳號(Google、FB、銀行等)
  • ✅ 可以存取 cookies / session
  • ✅ 不需要重新登入

背後技術是:

👉 Chrome DevTools Protocol(CDP) ( opencli chrome外掛)

這比 Selenium 強的地方在於:

  • 更快
  • 更貼近真實使用者
  • 可操作現有視窗

2️⃣ 控制 Cursor 寫程式(AI 自動開發)

Cursor 是目前非常強的 AI 編輯器,而 OpenCLI 可以直接操控它 👇

🛠️ 設定方式

Step 1:啟動 Cursor Debug 模式

cursor --remote-debugging-port=9226

⚠️ 注意:

  • 視窗 不能關閉
  • 這會開啟 CDP 讓 OpenCLI 控制

Step 2:設定環境變數

mac or linux
export OPENCLI_CDP_ENDPOINT="http://127.0.0.1:9226"

windows 版本
set OPENCLI_CDP_ENDPOINT=http://127.0.0.1:9226

Step 3:測試是否成功

opencli cursor model

Step 4:讓 AI 寫程式

opencli cursor send "新增一個 readme.txt"

👉 OpenCLI 會直接:

  • 操控 Cursor
  • 建立檔案
  • 寫入內容

🔥 實際應用場景

  • 自動生成專案 README
  • 批次修改程式碼
  • 自動補齊文件
  • AI Refactor 專案

👉 等於你有一個「真的會操作 IDE 的 AI 工程師」


3️⃣ 自訂 Plugin Adapter(YAML 抓網站)

OpenCLI 支援自訂 Plugin,透過 YAML 定義資料來源 👇

🧩 範例概念

name: fetch_news
description: 抓取新聞網站資料request:
url: https://example.com/news
method: GETparse:
type: html
selectors:
title: h1.title
content: div.article

👉 你可以做到:

  • 抓網站資料
  • 做 ETL pipeline
  • 整合 API
  • 建立 AI 工具鏈

📦 安裝 OpenCLI

官方資源:

  • GitHub:GitHub 上的 opencli repo
  • npm 套件:@jackwener/opencli
npm install -g @jackwener/opencli

安裝 OpenCLI Chorm extension

https://github.com/jackwener/opencli/releases

下載 opencli-extension.zip

解壓縮後放到 chrome 的擴充套件中

檢查安裝狀態

opencli doctor

看到上面的資訊就代表成功

可以測試用自己的帳號去查 B 站的最熱門影片了

opencli bilibili hot –limit 5


⚡ 三大核心能力


🔥 1. 把任何網站變 CLI

👉 這是 OpenCLI 最核心功能

例如:

opencli hackernews top
opencli twitter mentions
opencli gmail read

背後:

  • YAML 定義
  • AI 自動操作頁面

🔥 2. 直接用你 Chrome(含登入)

👉 這點非常關鍵(你前面有用到)

OpenCLI:

  • 不模擬登入
  • 不存 cookie
  • 不重建 session

👉 直接用你 Chrome 裡的登入狀態


🔥 這代表什麼?

你可以:

  • 操作 Gmail
  • 操作 FB / IG
  • 操作內部系統(SSO)

👉 完全不像傳統爬蟲


🔥 3. 控制本地工具(Cursor / VSCode)

👉 這才是 AI Agent 真正關鍵

OpenCLI 可以:

  • 控制 Cursor
  • 控制 CLI
  • 操作本機檔案

👉 等於:

AI 可以「真的幫你寫程式」

🧪 真實應用場景


📌 1. 自動收集資訊

👉 每天做:

  • 抓新聞
  • 抓 Reddit
  • 抓競品資料

📌 2. 自動寫程式

👉 例如:

opencli cursor send "建立 flask API"

📌 3. 自動操作後台

👉 例如:

  • WordPress 發文
  • Cloud Console 操作
  • CRM 系統

📌 4. 自動化工作流

👉 一句話:

👉「抓資料 → 分析 → 寫報告 → 存檔」

📱 延伸:手機 + Termux + OpenCLI

Termux + Android 手機也可以跑:

👉 搭配:

  • OpenClaw
  • OpenCLI

可以做到:

  • 行動 AI Agent
  • 手機自動操作
  • 遠端開發

⚠️ 注意事項

🔒 安全性

因為它可以:

  • 操控你的 Chrome
  • 使用你的登入狀態

👉 建議:

  • 不要開放外網
  • 使用本機環境
  • 控制權限

⚙️ 穩定性

  • CDP port 被占用會失敗
  • Cursor 視窗關閉會斷線
  • Plugin YAML 要寫正確

🎯 總結

OpenCLI 的本質不是工具,而是:👉 AI 的「手」

👉 AI 操作你電腦的入口

它讓你可以:

  • 🧠 用 AI 控制瀏覽器
  • 💻 用 AI 操作 IDE(Cursor)
  • 🔗 串接任何資料來源(Plugin)

🧠 AI 能力分層

層級能力
LLM思考
LangChain決策
OpenCLI行動

👉 沒有 OpenCLI:

👉 AI 只能「講」

👉 有 OpenCLI:

👉 AI 才能「做」

參考資訊

https://opencli.info/docs