Agent 彙整

Stagehand 教學｜AI 驅動的瀏覽器自動化神器，TypeScript 與 Python 都支援！

by Rain Chu | 8 月 8, 2025 | Agent, AI, Javascript, Python, RPA, 瀏覽器, 程式開發

想用 AI 控制網頁自動化，但程式碼又要精準可靠，同時享受自然語言，高效又方便？那你絕不能錯過由 Browserbase 團隊推出的 Stagehand —— 這款專為 AI 時代設計的瀏覽器自動化框架，不僅支援 TypeScript 與 Python、可本地或雲端部署，還比 Browser‑Use 更快、更耐變動！

Stagehand 兼具控制力與智慧的 AI 瀏覽器自動化框架

Stagehand 是以 Playwright 為核心構建的 AI-native 自動化工具，它加入了 LLM 判斷能力，結合程式精準控制與自然語言指令，令自動化腳本更穩定、更智慧也更高效

自然語言 + 程式碼混合操作：你可以用程式寫明確動作，也能用「act(‘點擊第一個 Stagehand 元件’)」這樣類人語法完成UI操作。
接口完整，支援察看、執行與資料萃取：核心三大命令 act、observe、extract，讓操作更透明、更可控
容錯與自恢復能力：UI 略有變動也不怕，Stagehand 的 observe + 快取策略讓腳本更具彈性
完美整合 Playwright：所有 Playwright 腳本都能無縫升級 Stagehand，省心又高效

核心玩法！TypeScript/JavaScript 快速上手範例

// Use Playwright functions on the page object
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// Use act() to execute individual actions
await page.act("click on the stagehand repo");

// Use Computer Use agents for larger actions
const agent = stagehand.agent({
    provider: "openai",
    model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// Use extract() to read data from the page
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("The username of the PR author"),
    title: z.string().describe("The title of the PR"),
  }),
});

這段程式完整示範了初始化、導航、AI 驅動操作到資料萃取的流程，不僅省事，也大幅提升開發效率。

Stagehand 與 Browser-Use 比較

功能面	Stagehand（此文主角）	Browser-Use
控制精準度	Token 級動作掌控 + 自然語言指令混合	攻擊角度偏自然語言，程式控制較弱
容錯能力	`observe` + 快取策略，對 DOM 變化更耐受	缺少自恢復機制
雲端支援	原生整合 Browserbase，輕鬆雲端部署	需額外集成，無預設雲平台支援
語言支援	TypeScript / Python	主要依賴 Python
AI 整合	天生結合 LLM，支援複雜任務拆解	依賴外部 LLM，不那麼一體化

只要先學四個指令，快速上手

指定去那一個網頁

goto()：

    # 初始化
    page = stagehand.page
    # 指定去那一個頁面
    await page.goto("https://rain.tips/")

使用自然語言操作

act()：

    await page.act("點選確定按鈕");

抓取數據資料

extract()：

    post = await page.extract("取得標題")

預覽功能

observe()：

   links = await page.observe("找到頁面中的所有連結")

實戰快速導覽

安裝

# 用 pip
pip install stagehand python-dotenv

# 安裝playwright
python -m playwright install

# 裝 chromium 瀏覽器
python -m playwright install chromium

建立 .env

export BROWSERBASE_API_KEY="your_browserbase_api_key"
export BROWSERBASE_PROJECT_ID="your_browserbase_project_id"
export MODEL_API_KEY="your_model_api_key"  # OpenAI, Anthropic, etc.

建立程式碼 main.py

import asyncio
import os
from stagehand import Stagehand, StagehandConfig
from dotenv import load_dotenv

load_dotenv()

async def main():
    config = StagehandConfig(
        env="BROWSERBASE",
        api_key=os.getenv("BROWSERBASE_API_KEY"),
        project_id=os.getenv("BROWSERBASE_PROJECT_ID"),
        model_name="gpt-4o",
        model_api_key=os.getenv("MODEL_API_KEY")
    )
    
    stagehand = Stagehand(config)
    
    try:
        await stagehand.init()
        page = stagehand.page
        
        await page.goto("https://docs.stagehand.dev/")
        await page.act("click the quickstart link")
        
        result = await page.extract("extract the main heading of the page")
        
        print(f"Extracted: {result}")
        
    finally:
        await stagehand.close()

if __name__ == "__main__":
    asyncio.run(main())

驗證與測試

python main.py

若要用本地端的瀏覽器的話，可以改成下面的程式碼

import asyncio
import os
from dotenv import load_dotenv
from stagehand import StagehandConfig, Stagehand

load_dotenv()

async def main():
    # 检查API密钥是否设置
    api_key = os.getenv("OPENAI_API_KEY")

    config = StagehandConfig(
        env="LOCAL",  # 本地运行
        # AI模型配置 - 使用环境变量
        model_name="gpt-4o-mini",  # 使用更便宜的模型
        model_api_key=api_key,  # 从环境变量读取

        # 本地运行配置
        headless=False,  # 显示浏览器窗口
        verbose=3,  # 详细日志
        debug_dom=True,  # DOM调试
    )

    # 使用配置创建Stagehand实例
    stagehand = Stagehand(config)

    # 初始化Stagehand（启动浏览器会话）
    await stagehand.init()

    # 获取页面对象，用于后续的页面操作
    page = stagehand.page

    await page.goto("https://rain.tips/")

    # # 使用observe()取得文章的連結
    blog_links = await page.observe("取得文章中的所有連結)
    print(f"✅ Page link: {blog_links}")

    await page.act(blog_links[0]) 
    data_post_1 = await page.extract("取得文章的標題和內文")
    print(f"✅ 文章資訊如下: {data_post_1}")

if __name__ == "__main__":
    asyncio.run(main())

總結：為什麼 Stagehand 是下一代自動化框架？

語言直覺更自然，人類可理解
對 UI 變化具彈性、不易失效
結合 LLM，自動拆解任務，效率提升數倍
支援本地與雲端，開發與生產環境都得心應手

Stagehand 正重新定義瀏覽器自動化，不再只是死板指令，而是一場「程式控＋AI 智能」的完美結合，無論對開發者或 AI 自動化愛好者，都是一大利器。快一起駕馭它，打造更強、更智慧的自動化流程！

參考資料

https://www.aivi.fyi/aiagents/introduce-stagehand

完全免費無限制！使用 OpenAI 開源模型 gpt‑oss 在本地離線運行

DeepSeek R1 伺服器繁忙？硅基流動推出高效 API 解決方案

by Rain Chu | 2 月 23, 2025 | Agent, AI, Chat, Prompt

硅基流動（SiliconFlow）是一家致力於加速通用人工智慧（AGI）普惠化的公司，主要可以讓生成式人工智慧惠及開發者和終端使用者使用，最近，硅基流動與華為雲合作，推出了基於昇騰雲的 DeepSeek R1 和 V3 推理服務，為使用者提供高效、穩定的 AI 模型推理體驗。

DeepSeek R1 與硅基流動的合作

DeepSeek R1 是一款由強化學習驅動的推理模型，旨在解決模型生成內容的重複性和可讀性問題。在強化學習之前，DeepSeek R1 引入了冷啟動數據，進一步優化推理效能。然而，近期由於 DeepSeek 官方伺服器頻繁出現繁忙狀態，許多使用者在使用時受到限制。

為了解決這一問題，硅基流動與華為雲合作，將 DeepSeek R1 部署在基於昇騰的計算平台上，提供更 穩定、高速 的 DeepSeek R1 API 服務，讓使用者可以在更低的成本下獲得優質的 AI 推理服務。

如何使用 DeepSeek R1 API

使用者可以透過 註冊硅基流動平台，取得 API 金鑰，並將 DeepSeek R1 模型整合到各種應用之中。硅基流動提供了詳細的 技術文件與教學，幫助開發者快速上手，充分發揮 DeepSeek R1 的強大功能。

硅基流動透過與華為雲的合作，成功解決了 DeepSeek R1 在使用過程中的伺服器繁忙問題，為開發者和終端使用者提供了一個 高效、穩定的 AI 模型推理平台。這不僅展現了 硅基流動的技術優勢，也體現了其在推動 AGI 普惠化 方面的努力。

API使用

Cherry Studio：多模型 AI 助手，提升工作效率的全能桌面客戶端

Flowise vs. 其他 AI 代理工具：哪個更適合您的需求？

by rainchu | 11 月 28, 2024 | Agent, AI

Flowise 是一款開源的低代碼工具，一般人也可以輕易地使用，用於構建自定義的大語言模型（LLM）編排流程和 AI 代理。透過直觀的拖放介面，使用者可以輕鬆設計複雜的 AI 工作流程，無需深入的程式設計知識。

Flowise 的主要特點：

開源且免費：Flowise 完全開源，使用者可自由使用並進行二次開發，無需擔心授權問題。 GitHub
低代碼開發：透過簡單的拖放介面，使用者可以快速構建 LLM 應用，縮短開發週期。 Flowise AI Docs
多代理支援：Flowise 提供多代理系統，允許使用者設計可與外部工具和資料來源互動的代理，實現更高效的任務處理。 Flowise AI Docs
靈活的工作流程設計：使用者可以根據需求，自定義工作流程的邏輯和順序，滿足不同場景的應用需求。

Flowise 與其他 AI 代理工具的差異：

與 Langflow 的比較：Langflow 專注於自然語言處理，提供可視化介面來構建和調試語言處理流程。相比之下，Flowise 更強調 LLM 的編排和代理的靈活性，適用範圍更廣。
與 Dify 的比較：Dify 致力於簡化 AI 應用的部署，提供一站式解決方案。而 Flowise 更專注於工作流程的設計和代理的構建，提供更大的自定義空間。
與其他工具的比較：Flowise 的開源性和低代碼特性，使其在靈活性和可擴展性方面具有優勢，適合需要快速迭代和自定義需求的開發者。

參考資料

AgentK與AI的融合：打造自學能力的AGI核心技術

LiveKit-擁有自己的AI即時語音客服聊天小助理

Dify Agent

OmniParser-微軟的開源螢幕解析工具

by Rain Chu | 11 月 6, 2024 | Agent, AI

繼之前提到的 Ahthropic Computer Use ，那時候超級驚豔的，馬上就看到MS也有推出自己的版本，雖然沒有自動執行功能，但可以配合 pyautogui 達成，雖然不支援中文，但可以透過中文OCR 或是 tesseract 處理

安裝到本地端

先建立一個虛擬環境起來

conda create -n omni python=3.12 -y
conda activate omni

選項:有GPU的，先把CUDA安裝起來

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

整個安裝也很簡單，就五個步驟

git clone https://github.com/microsoft/OmniParser.git && cd OmniParser
pip install -r requirements.txt
huggingface-cli download --repo-type model microsoft/OmniParser --local-dir weights --include "icon_detect/*" "icon_caption_blip2/*" "icon_caption_florence/*"
python /home/Ubuntu/OmniParser/weights/convert_safetensor_to_pt.py
python gradio_demo.py

OmniParser 1.5 更新

先下載模型

python weights/convert_safetensor_to_pt.py

For v1.5: 
download 'model_v1_5.pt' from https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5, make a new dir: weights/icon_detect_v1_5, and put it inside the folder. No weight conversion is needed.

執行指令要改成 1.5 版本

python gradio_demo.py --icon_detect_model weights/icon_detect_v1_5/model_v1_5.pt --icon_caption_model florence2

支援其他的語言

舉例來說，要改成中文，請找到專案下的 utils.py ，將 en 改成 ch

reader = easyocr.Reader(['en'])
paddle_ocr = PaddleOCR(
#    lang='en',  # other lang also available
    lang='ch',  # other lang also available
    use_angle_cls=False,
    use_gpu=False,  # using cuda will conflict with pytorch in the same process
    show_log=False,
    max_batch_size=1024,
    use_dilation=True,  # improves accuracy
    det_db_score_mode='slow',  # improves accuracy
    rec_batch_num=1024)

在介面中選取使用 PaddleOCR

Open Canvas-本地使用 OpenAI Canvas功能

by Rain Chu | 11 月 6, 2024 | Agent, AI, Chat

最近 OpenAI 推出了 Canvas ，開始流行在 ChatGPT 上頭寫程式、寫郵件等等，馬上就有人推出本地端一樣的服務 Open Canvas ，解放了你只能在 OpenAI 上使用的困境，除了 Git 以外，也馬上有了 docker 版本，可以快速體驗

Dify AI 是一個開放靈活的生成式 AI 應用開發框架，提供了一個全方面的解決方案，讓開發者能夠輕鬆構建和運營生成式 AI的原生應用。平台的核心技術包括 AI 工作流程編排、RAG 檢索、模型管理等功能。Dify AI 支持從 Agent 建立到工作流程編排的完整開發過程，讓使用者可以專注於創造應用的核心價值，此外，它提供的工具包括 Prompt IDE、Enterprise LLMOps 和 BaaS 等解決方案，可以大幅度的提升開發效率並優化應用性能，可以先去Dify的GitHUB看看。

特色介紹

公司內部私有化的知識庫和AI助理：

Dify AI 允許企業將內部知識庫整合到平台中，並創建專屬的AI助理，來高效地管理和利用企業知識。

公司內部可以控管的紀錄：

企業可以通過Dify AI平台對所有操作和數據進行詳細記錄和管控，確保數據安全和合規性。

AI工作流自動化：

Dify AI 提供連結公司內部資訊系統的能力，幫助企業自動化處理各種業務流程，提升運營效率。

零代碼創建 AI Agent：

平台支持用戶在無需編寫代碼的情況下，創建和部署個性化的 AI Agent，滿足各類業務需求。

支持多種大語言模型：

Dify AI 支持全球各種主流的大語言模型（LLM），為企業提供靈活的選擇，以滿足不同場景的應用需求。

開發以及運營的支持

利用 Docker 安裝

先把專案抓下來

git clone https://github.com/langgenius/dify.git

然後可以用下面的指令安裝

cd docker
cp .env.example .env
docker compose up -d

安裝完成後，利用瀏覽器看 http://localhost/install ，按照步驟設定即可

使用線上服務

https://cloud.dify.ai/apps

價格表

您可以在 Dify AI 官網上了解更多詳情。

參考資料：

Flux API – black-forest-labs(黑森林實驗室中的最強文生圖)

Stagehand 教學｜AI 驅動的瀏覽器自動化神器，TypeScript 與 Python 都支援！

Stagehand 兼具控制力與智慧的 AI 瀏覽器自動化框架

核心玩法！TypeScript/JavaScript 快速上手範例

Stagehand 與 Browser-Use 比較

只要先學四個指令，快速上手

指定去那一個網頁

使用自然語言操作

抓取數據資料

預覽功能

實戰快速導覽

總結：為什麼 Stagehand 是下一代自動化框架？

參考資料

DeepSeek R1 伺服器繁忙？硅基流動推出高效 API 解決方案

DeepSeek R1 與硅基流動的合作

如何使用 DeepSeek R1 API

Flowise vs. 其他 AI 代理工具：哪個更適合您的需求？

Flowise 的主要特點：

Flowise 與其他 AI 代理工具的差異：

參考資料

OmniParser-微軟的開源螢幕解析工具

安裝到本地端

OmniParser 1.5 更新

支援其他的語言

相關資源

Open Canvas-本地使用 OpenAI Canvas功能

相關資源

近期文章

近期留言

彙整

分類