by Rain Chu | 4 月 2, 2026 | Agent , AI
🧠 什麼是 OpenCLI?
OpenCLI 是一個結合 CLI(命令列)+AI Agent+瀏覽器控制能力 的工具。
它讓你可以:
用 AI 操作你的瀏覽器(真的操作你的 Chrome)
控制本地開發工具(例如 Cursor)
串接自訂 Plugin(抓資料、爬網站、整合 API)
👉 簡單來說,它是「本地版 AI Agent 作業系統」
🧠 核心組件說明
1️⃣ Runtime(最重要)
OpenCLI 本體負責:
👉 類似:
LangChain Agent Executor
或 AutoGPT 的 runtime
2️⃣ Plugin Adapter(YAML)
👉 這是 OpenCLI 最強的地方之一
你可以:
把網站轉成 CLI
定義資料抓取規則
建立 AI 工具鏈
📌 重點:
👉 不是寫程式,而是寫 YAML
3️⃣ Browser Bridge(關鍵黑科技)
OpenCLI 不是用 Selenium
👉 而是:
Playwright MCP bridge
Chrome DevTools Protocol(CDP)
👉 直接控制「你正在用的瀏覽器」
4️⃣ Channel / Gateway
負責:
⚡ 核心特色
1️⃣ 直接使用你的 Chrome(含登入狀態)
OpenCLI 最大的優勢之一:
👉 直接控制你正在使用的 Chrome
這代表:
✅ 可以使用已登入的帳號(Google、FB、銀行等)
✅ 可以存取 cookies / session
✅ 不需要重新登入
背後技術是:
👉 Chrome DevTools Protocol(CDP) ( opencli chrome外掛 )
這比 Selenium 強的地方在於:
2️⃣ 控制 Cursor 寫程式(AI 自動開發)
Cursor 是目前非常強的 AI 編輯器,而 OpenCLI 可以直接操控它 👇
🛠️ 設定方式
Step 1:啟動 Cursor Debug 模式
cursor --remote-debugging-port=9226
⚠️ 注意:
視窗 不能關閉
這會開啟 CDP 讓 OpenCLI 控制
Step 2:設定環境變數
mac or linux export OPENCLI_CDP_ENDPOINT="http://127.0.0.1:9226" windows 版本 set OPENCLI_CDP_ENDPOINT=http://127.0.0.1:9226
Step 3:測試是否成功
opencli cursor model
Step 4:讓 AI 寫程式
opencli cursor send "新增一個 readme.txt"
👉 OpenCLI 會直接:
🔥 實際應用場景
自動生成專案 README
批次修改程式碼
自動補齊文件
AI Refactor 專案
👉 等於你有一個「真的會操作 IDE 的 AI 工程師」
3️⃣ 自訂 Plugin Adapter(YAML 抓網站)
OpenCLI 支援自訂 Plugin,透過 YAML 定義資料來源 👇
🧩 範例概念
name: fetch_news description: 抓取新聞網站資料request: url: https://example.com/news method: GETparse: type: html selectors: title: h1.title content: div.article
👉 你可以做到:
抓網站資料
做 ETL pipeline
整合 API
建立 AI 工具鏈
📦 安裝 OpenCLI
官方資源:
npm install -g @jackwener/opencli
安裝 OpenCLI Chorm extension
https://github.com/jackwener/opencli/releases
下載 opencli-extension.zip
解壓縮後放到 chrome 的擴充套件中
檢查安裝狀態
opencli doctor
看到上面的資訊就代表成功
可以測試用自己的帳號去查 B 站的最熱門影片了
opencli bilibili hot –limit 5
⚡ 三大核心能力
🔥 1. 把任何網站變 CLI
👉 這是 OpenCLI 最核心功能
例如:
opencli hackernews top opencli twitter mentions opencli gmail read
背後:
🔥 2. 直接用你 Chrome(含登入)
👉 這點非常關鍵(你前面有用到)
OpenCLI:
不模擬登入
不存 cookie
不重建 session
👉 直接用你 Chrome 裡的登入狀態
🔥 這代表什麼?
你可以:
操作 Gmail
操作 FB / IG
操作內部系統(SSO)
👉 完全不像傳統爬蟲
🔥 3. 控制本地工具(Cursor / VSCode)
👉 這才是 AI Agent 真正關鍵
OpenCLI 可以:
👉 等於:
AI 可以「真的幫你寫程式」
🧪 真實應用場景
📌 1. 自動收集資訊
👉 每天做:
📌 2. 自動寫程式
👉 例如:
opencli cursor send "建立 flask API"
📌 3. 自動操作後台
👉 例如:
WordPress 發文
Cloud Console 操作
CRM 系統
📌 4. 自動化工作流
👉 一句話:
👉「抓資料 → 分析 → 寫報告 → 存檔」
📱 延伸:手機 + Termux + OpenCLI
Termux + Android 手機也可以跑:
👉 搭配:
可以做到:
⚠️ 注意事項
🔒 安全性
因為它可以:
👉 建議:
⚙️ 穩定性
CDP port 被占用會失敗
Cursor 視窗關閉會斷線
Plugin YAML 要寫正確
🎯 總結
OpenCLI 的本質不是工具,而是:👉 AI 的「手」
👉 AI 操作你電腦的入口
它讓你可以:
🧠 用 AI 控制瀏覽器
💻 用 AI 操作 IDE(Cursor)
🔗 串接任何資料來源(Plugin)
🧠 AI 能力分層
層級 能力 LLM 思考 LangChain 決策 OpenCLI 行動
👉 沒有 OpenCLI:
👉 AI 只能「講」
👉 有 OpenCLI:
👉 AI 才能「做」
參考資訊
https://opencli.info/docs
VIDEO
by Rain Chu | 4 月 1, 2026 | Agent , AI , OpenClaw
如果你想使用 OpenClaw 這類 AI Agent 工具,大多需要一台電腦或伺服器來執行。
但現在,你甚至可以用「一支舊 Android 手機」來打造一個 隨身遠端 AI 控制節點 !
👉 沒錯,舊手機不再只是備用機,而是可以變成:
這篇文章會帶你一步步完成:
📌 在 Android 手機上透過 Termux 安裝 OpenClaw,並實現遠端操控能力
🎯 為什麼要用「舊 Android 手機 + OpenClaw」?
📸 使用場景示意
4
✅ 核心優勢
1️⃣ 硬體要求低(舊手機就能跑)
不需要高效能 CPU / GPU
2GB~4GB RAM 就能運作
廢棄手機再利用
2️⃣ 可直接使用手機硬體能力
👉 不同於傳統 server,你可以用:
📷 相機(影像輸入)
🎤 麥克風(語音控制)
📶 行動網路(隨時在線)
3️⃣ 隨身攜帶的 AI 控制中心
SSH 控制 GCP / VM
呼叫 AI Agent workflow
當 DevOps 控制台
4️⃣ 比舊電腦更省電、更穩定
🧠 系統架構
Android 手機 -> Termux (Linux 環境) -> OpenClaw Agent -> Local AI / Server / GCP
👉 手機只是「控制層」,重運算仍在雲端
以下安裝方法 2 選 1 ,薪水推薦用 APK
🛠️ 安裝流程(APK)
🔗 官方下載
👉 來源:https://github.com/mithun50/openclaw-termux/releases/
📱 Step 1:下載 APK
在 Releases 頁面找:
👉 通常名稱會像:
openclaw-android.apk 或 app-release.apk
下載到手機
🔐 Step 2:允許安裝未知來源
Android 需要開:
👉 設定 → 安全性 👉 允許「未知來源」
📲 Step 3:安裝 APK
直接點 APK:
👉 完成後會出現 App(OpenClaw)
⚙️ Step 4:準備 Backend(重點)
👉 APK 本身不會跑 AI
你需要一個 Gateway:
方法 A(最推薦)
👉 手機本機跑:
👉 流程:
APK → localhost:port
方法 B(更穩定)
👉 連 GCP:
APK → GCP VM(OpenClaw)
🔗 Step 5:連線 OpenClaw Gateway
打開 APK → 設定連線:
方式 1:自動配對
方式 2:手動輸入
Host: 你的IP Port: 3000 / 8080(依你設定) Token: Gateway Token
👉 官方說明支援:
manual host/port
token / TLS
🧪 Step 6:測試
成功後你可以:
🛠️ 安裝流程(完整實戰)
📱 Step 1:安裝 Termux
👉 使用:Termux
⚠️ 注意:
請從 F-Droid 安裝(不要用 Play 商店版本)
🔄 Step 2:更新環境
pkg update && pkg upgrade -y pkg install git wget curl -y
📦 Step 3:安裝 OpenClaw
👉 官方 repo:openclaw-termux
git clone https://github.com/mithun50/openclaw-termux.git cd openclaw-termux bash install.sh
⚙️ Step 4:啟動服務
bash start.sh
啟動後你會看到:
🌐 遠端操控方式
方法一:瀏覽器控制
👉 手機或電腦打開:
http://手機IP:PORT
方法二:API / AI Agent 控制
👉 你可以串:
LangChain
Local AI Agent
webhook
方法三:SSH 進手機
pkg install openssh sshd
⚡ 進階玩法
🔥 架構升級
👉 也可以這樣玩:
手機(OpenClaw)-> 控制指令 -> GCP VM(AI模型)-> 回傳結果
🤖 實際應用
📊 自動抓資料 → 分析 → 回報
🧠 控制 Ollama AI 模型
🏠 智慧家居控制中心
📡 遠端監控節點
⚠️ 注意事項(實戰會踩雷)
❌ Android 限制
❌ Port 問題
👉 常見:
lsof -i :8080
❌ 效能限制
👉 不適合:
❌ 手機連不到內網
👉 用:
❌ 以為 APK = 完整系統
👉 錯
👉 APK 只是 UI
❌ Port 連不到
👉 要開:
ufw allow 3000
❌ Gateway 沒啟動
openclaw gateway
🧠 舊手機 vs 舊電腦
項目 舊手機 舊電腦 功耗 ⭐⭐⭐⭐ ⭐ 攜帶性 ⭐⭐⭐⭐ ⭐ 穩定性 ⭐⭐⭐ ⭐⭐ 擴充性 ⭐ ⭐⭐⭐⭐
👉 結論:
📌 手機適合「控制節點」,電腦適合「運算節點」
參考資訊
官方網站
https://github.com/mithun50/openclaw-termux
下載最新版本
https://github.com/mithun50/openclaw-termux/releases
VIDEO
by rainchu | 12 月 12, 2025 | Agent , AI
一句話說明
支援工具調用、多 Agents 協作的微軟最強開源可視化 Agents 框架 — 輕鬆打造旅遊規劃智能體、處理複雜任務的最佳利器!
在 AI 智能體(AI Agents)快速崛起的時代,微軟推出的 AutoGen Studio 讓任何人都能以「零代碼」、「可視化拖拉介面」打造各種自動化工作流。無論是旅遊規劃智能體、資料分析助理、客服回覆機器人,甚至多智能體互動的複雜任務流程,都能在短時間內建立與部署。
AutoGen Studio 讓過去需要高階程式能力的 AI 協作流程變得像玩積木一樣簡單,只要拖動 Agents、設定工具、串接提示與流程,就能建立具備邏輯判斷、工具調用(Tool Calling)、資料取得與任務分解能力的完整 AI 系統。
🔥 為什麼 AutoGen Studio 如此強大?
1. 零代碼可視化工作流
AutoGen Studio 最大亮點就是它的 Flow 介面: 只需拖曳 Agents、工具與節點,即可建立流程圖般的 AI 工作流程。 不用寫一行程式碼,新手也能三分鐘上手!
2. 支援多智能體協作(Multi-Agent Collaboration)
要讓多個 AI Agents 聊天、討論、分工? AutoGen Studio 完全支援!
例如:
規劃旅遊行程的 Planner Agent
搜尋航班與飯店的 Tools Agent
彙整結果輸出的 Writer Agent
它們可以自動來回互動、分工完成任務,就像一組虛擬團隊。
3. 強大的工具調用(Tool Calling)
AutoGen 完整支援 LLM 的工具調用能力,例如:
呼叫外部 API
執行 Python 程式
查詢資料庫
擷取網頁內容
這意味著 AI 不再只是回答,而是能夠「行動」。
4. 開源、可擴充、跨平台
AutoGen 由微軟研究院開源,擁有極高可擴充性:
可以接入任何 LLM(OpenAI、Azure、Claude…)
可以擴展自訂工具
可與 AutoGen Python SDK 整合
可部署於本地或雲端
5. 專為「複雜任務」設計
AutoGen 的重點不只是聊天,而是處理需要多步驟推理與協作的任務,例如:
報表自動化
資料分析
內容生成
專案規劃
多工具串聯流程
其強大的任務協作機制遠超一般 ChatGPT Prompt Flow。
🚀 AutoGen Studio 三分鐘快速入門
以下是最常見的新手流程,只要三分鐘就能打造第一個智能體工作流!
步驟 1:建立一個新的 Flow
在 Studio 中點擊「Create Flow」即可開始建構可視化流程。
步驟 2:加入兩個 Agents
例如:
User Proxy Agent :負責接收使用者輸入
Assistant Agent :負責執行任務
也可以加入更多 Agents 並設定參數,例如角色、工具、溝通方式等。
步驟 3:加入工具(Tools)
你可以啟用 AutoGen 內建工具或自訂:
Python 執行器
HTTP API
檔案處理
計算器
資料庫查詢
步驟 4:連接節點、設定觸發事件
就像畫流程圖一樣,連接 Agents → 工具 → 回傳結果。
步驟 5:點擊「Run」即可開始執行
AI 智能體會自動互動並完成任務。
🧭 範例:打造「旅遊規劃 AI 智能體工作流」
這是一個 AutoGen Studio 非常經典也最吸引人的應用情境!
你可以建立:
Agent 角色分工
旅遊規劃師(Planner Agent) :負責制定行程
搜尋工具 Agent(Search Tool Agent) :查詢航班、景點、天氣
彙整撰稿 Agent(Writer Agent) :輸出易讀的旅遊計畫表
工具串接
Web Search API
天氣 API
飯店 API
Python 資料處理
輸出成果
AutoGen Studio 能交付:
只要輸入:「幫我規劃 5 天東京自由行」,就能自動完成一整套旅遊計畫!
💡 AutoGen Studio vs 傳統 Agents 工具
功能 傳統 Agents AutoGen Studio 可視化介面 ❌ 無 ✔ 直覺拖拉 工具調用 部分支援 ✔ 深度整合 多 Agents 協作 複雜 ✔ 自動化運作 部署方式 程式碼導向 ✔ 零代碼工作流 新手友善度 低 非常高
AutoGen Studio 就是為「人人都能打造 AI Agents」而生。
⭐ AutoGen Studio + Animon AI:最強 AI Agents 組合
目前網路上爆紅的 Animon AI(AI Agents 捷徑平台) 常與 AutoGen/AutoGen Studio 結合使用。
Animon AI 擅長:
快速調用多個模型
整合多來源資料
部署輕量級 Agents
AutoGen Studio 擅長:
視覺化工作流
多 Agents 協作
擴充與工具調用
兩者搭配可建立更完整的 AI Agents 生態。
📌 AutoGen Studio 官方資源
by Rain Chu | 8 月 8, 2025 | Agent , AI , Javascript , Python , RPA , 瀏覽器 , 程式開發
想用 AI 控制網頁自動化,但程式碼又要精準可靠,同時享受自然語言,高效又方便?那你絕不能錯過由 Browserbase 團隊推出的 Stagehand —— 這款專為 AI 時代設計的瀏覽器自動化框架,不僅支援 TypeScript 與 Python、可本地或雲端部署,還比 Browser‑Use 更快、更耐變動!
Stagehand 兼具控制力與智慧的 AI 瀏覽器自動化框架
Stagehand 是以 Playwright 為核心構建的 AI-native 自動化工具,它加入了 LLM 判斷能力,結合程式精準控制與自然語言指令,令自動化腳本更穩定、更智慧也更高效
自然語言 + 程式碼混合操作 :你可以用程式寫明確動作,也能用「act(‘點擊第一個 Stagehand 元件’)」這樣類人語法完成UI操作 。
接口完整,支援察看、執行與資料萃取 :核心三大命令 act、observe、extract,讓操作更透明、更可控
容錯與自恢復能力 :UI 略有變動也不怕,Stagehand 的 observe + 快取策略讓腳本更具彈性
完美整合 Playwright :所有 Playwright 腳本都能無縫升級 Stagehand,省心又高效
核心玩法!TypeScript/JavaScript 快速上手範例
// Use Playwright functions on the page object
const page = stagehand.page;
await page.goto("https://github.com/browserbase");
// Use act() to execute individual actions
await page.act("click on the stagehand repo");
// Use Computer Use agents for larger actions
const agent = stagehand.agent({
provider: "openai",
model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");
// Use extract() to read data from the page
const { author, title } = await page.extract({
instruction: "extract the author and title of the PR",
schema: z.object({
author: z.string().describe("The username of the PR author"),
title: z.string().describe("The title of the PR"),
}),
});
這段程式完整示範了初始化、導航、AI 驅動操作到資料萃取的流程,不僅省事,也大幅提升開發效率。
Stagehand 與 Browser-Use 比較
功能面 Stagehand(此文主角) Browser-Use 控制精準度 Token 級動作掌控 + 自然語言指令混合 攻擊角度偏自然語言,程式控制較弱 容錯能力 observe + 快取策略,對 DOM 變化更耐受缺少自恢復機制 雲端支援 原生整合 Browserbase,輕鬆雲端部署 需額外集成,無預設雲平台支援 語言支援 TypeScript / Python 主要依賴 Python AI 整合 天生結合 LLM,支援複雜任務拆解 依賴外部 LLM,不那麼一體化
只要先學四個指令,快速上手
指定去那一個網頁
goto():
# 初始化
page = stagehand.page
# 指定去那一個頁面
await page.goto("https://rain.tips/")
使用自然語言操作
act():
await page.act("點選確定按鈕");
抓取數據資料
extract():
post = await page.extract("取得標題")
預覽功能
observe():
links = await page.observe("找到頁面中的所有連結")
實戰快速導覽
安裝
# 用 pip
pip install stagehand python-dotenv
# 安裝playwright
python -m playwright install
# 裝 chromium 瀏覽器
python -m playwright install chromium
建立 .env
export BROWSERBASE_API_KEY="your_browserbase_api_key"
export BROWSERBASE_PROJECT_ID="your_browserbase_project_id"
export MODEL_API_KEY="your_model_api_key" # OpenAI, Anthropic, etc.
建立程式碼 main.py
import asyncio
import os
from stagehand import Stagehand, StagehandConfig
from dotenv import load_dotenv
load_dotenv()
async def main():
config = StagehandConfig(
env="BROWSERBASE",
api_key=os.getenv("BROWSERBASE_API_KEY"),
project_id=os.getenv("BROWSERBASE_PROJECT_ID"),
model_name="gpt-4o",
model_api_key=os.getenv("MODEL_API_KEY")
)
stagehand = Stagehand(config)
try:
await stagehand.init()
page = stagehand.page
await page.goto("https://docs.stagehand.dev/")
await page.act("click the quickstart link")
result = await page.extract("extract the main heading of the page")
print(f"Extracted: {result}")
finally:
await stagehand.close()
if __name__ == "__main__":
asyncio.run(main())
驗證與測試
若要用本地端的瀏覽器的話,可以改成下面的程式碼
import asyncio
import os
from dotenv import load_dotenv
from stagehand import StagehandConfig, Stagehand
load_dotenv()
async def main():
# 检查API密钥是否设置
api_key = os.getenv("OPENAI_API_KEY")
config = StagehandConfig(
env="LOCAL", # 本地运行
# AI模型配置 - 使用环境变量
model_name="gpt-4o-mini", # 使用更便宜的模型
model_api_key=api_key, # 从环境变量读取
# 本地运行配置
headless=False, # 显示浏览器窗口
verbose=3, # 详细日志
debug_dom=True, # DOM调试
)
# 使用配置创建Stagehand实例
stagehand = Stagehand(config)
# 初始化Stagehand(启动浏览器会话)
await stagehand.init()
# 获取页面对象,用于后续的页面操作
page = stagehand.page
await page.goto("https://rain.tips/")
# # 使用observe()取得文章的連結
blog_links = await page.observe("取得文章中的所有連結)
print(f"✅ Page link: {blog_links}")
await page.act(blog_links[0])
data_post_1 = await page.extract("取得文章的標題和內文")
print(f"✅ 文章資訊如下: {data_post_1}")
if __name__ == "__main__":
asyncio.run(main())
總結:為什麼 Stagehand 是下一代自動化框架?
語言直覺更自然,人類可理解
對 UI 變化具彈性、不易失效
結合 LLM,自動拆解任務,效率提升數倍
支援本地與雲端,開發與生產環境都得心應手
Stagehand 正重新定義瀏覽器自動化,不再只是死板指令,而是一場「程式控+AI 智能」的完美結合,無論對開發者或 AI 自動化愛好者,都是一大利器。快一起駕馭它,打造更強、更智慧的自動化流程!
參考資料
BrowserBase
GitHub Stagehand
Demo
開發說明文件
https://www.aivi.fyi/aiagents/introduce-stagehand
by Rain Chu | 2 月 23, 2025 | Agent , AI , Chat , Prompt
硅基流動 (SiliconFlow)是一家致力於加速通用人工智慧(AGI)普惠化的公司,主要可以讓生成式人工智慧惠及開發者和終端使用者使用,最近,硅基流動與華為雲合作,推出了基於昇騰雲的 DeepSeek R1 和 V3 推理服務 ,為使用者提供高效、穩定的 AI 模型推理體驗。
DeepSeek R1 與硅基流動的合作
DeepSeek R1 是一款由強化學習驅動的推理模型,旨在解決模型生成內容的重複性和可讀性問題。在強化學習之前,DeepSeek R1 引入了冷啟動數據,進一步優化推理效能。然而,近期由於 DeepSeek 官方伺服器頻繁出現繁忙狀態 ,許多使用者在使用時受到限制。
為了解決這一問題,硅基流動與華為雲合作,將 DeepSeek R1 部署在基於昇騰的計算平台上 ,提供更 穩定、高速 的 DeepSeek R1 API 服務 ,讓使用者可以在更低的成本下獲得優質的 AI 推理服務。
如何使用 DeepSeek R1 API
使用者可以透過 註冊硅基流動平台 ,取得 API 金鑰,並將 DeepSeek R1 模型整合到各種應用之中。硅基流動提供了詳細的 技術文件與教學 ,幫助開發者快速上手,充分發揮 DeepSeek R1 的強大功能。
硅基流動透過與華為雲的合作,成功解決了 DeepSeek R1 在使用過程中的伺服器繁忙問題 ,為開發者和終端使用者提供了一個 高效、穩定的 AI 模型推理平台 。這不僅展現了 硅基流動的技術優勢 ,也體現了其在推動 AGI 普惠化 方面的努力。
API使用
by rainchu | 11 月 28, 2024 | Agent , AI
Flowise 是一款開源的低代碼工具,一般人也可以輕易地使用,用於構建自定義的大語言模型(LLM)編排流程和 AI 代理。透過直觀的拖放介面,使用者可以輕鬆設計複雜的 AI 工作流程,無需深入的程式設計知識。
Flowise 的主要特點:
開源且免費 :Flowise 完全開源,使用者可自由使用並進行二次開發,無需擔心授權問題。 GitHub
低代碼開發 :透過簡單的拖放介面,使用者可以快速構建 LLM 應用,縮短開發週期。 Flowise AI Docs
多代理支援 :Flowise 提供多代理系統,允許使用者設計可與外部工具和資料來源互動的代理,實現更高效的任務處理。 Flowise AI Docs
靈活的工作流程設計 :使用者可以根據需求,自定義工作流程的邏輯和順序,滿足不同場景的應用需求。
Flowise 與其他 AI 代理工具的差異:
與 Langflow 的比較 :Langflow 專注於自然語言處理,提供可視化介面來構建和調試語言處理流程。相比之下,Flowise 更強調 LLM 的編排和代理的靈活性,適用範圍更廣。
與 Dify 的比較 :Dify 致力於簡化 AI 應用的部署,提供一站式解決方案。而 Flowise 更專注於工作流程的設計和代理的構建,提供更大的自定義空間。
與其他工具的比較 :Flowise 的開源性和低代碼特性,使其在靈活性和可擴展性方面具有優勢,適合需要快速迭代和自定義需求的開發者。
參考資料
VIDEO
近期留言