by Rain Chu | 8 月 8, 2025 | Agent , AI , Javascript , Python , RPA , 瀏覽器 , 程式開發
想用 AI 控制網頁自動化,但程式碼又要精準可靠,同時享受自然語言,高效又方便?那你絕不能錯過由 Browserbase 團隊推出的 Stagehand —— 這款專為 AI 時代設計的瀏覽器自動化框架,不僅支援 TypeScript 與 Python、可本地或雲端部署,還比 Browser‑Use 更快、更耐變動!
Stagehand 兼具控制力與智慧的 AI 瀏覽器自動化框架
Stagehand 是以 Playwright 為核心構建的 AI-native 自動化工具,它加入了 LLM 判斷能力,結合程式精準控制與自然語言指令,令自動化腳本更穩定、更智慧也更高效
自然語言 + 程式碼混合操作 :你可以用程式寫明確動作,也能用「act(‘點擊第一個 Stagehand 元件’)」這樣類人語法完成UI操作 。
接口完整,支援察看、執行與資料萃取 :核心三大命令 act
、observe
、extract
,讓操作更透明、更可控
容錯與自恢復能力 :UI 略有變動也不怕,Stagehand 的 observe
+ 快取策略讓腳本更具彈性
完美整合 Playwright :所有 Playwright 腳本都能無縫升級 Stagehand,省心又高效
核心玩法!TypeScript/JavaScript 快速上手範例
// Use Playwright functions on the page object
const page = stagehand.page;
await page.goto("https://github.com/browserbase");
// Use act() to execute individual actions
await page.act("click on the stagehand repo");
// Use Computer Use agents for larger actions
const agent = stagehand.agent({
provider: "openai",
model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");
// Use extract() to read data from the page
const { author, title } = await page.extract({
instruction: "extract the author and title of the PR",
schema: z.object({
author: z.string().describe("The username of the PR author"),
title: z.string().describe("The title of the PR"),
}),
});
這段程式完整示範了初始化、導航、AI 驅動操作到資料萃取的流程,不僅省事,也大幅提升開發效率。
Stagehand 與 Browser-Use 比較
功能面 Stagehand(此文主角) Browser-Use 控制精準度 Token 級動作掌控 + 自然語言指令混合 攻擊角度偏自然語言,程式控制較弱 容錯能力 observe
+ 快取策略,對 DOM 變化更耐受缺少自恢復機制 雲端支援 原生整合 Browserbase,輕鬆雲端部署 需額外集成,無預設雲平台支援 語言支援 TypeScript / Python 主要依賴 Python AI 整合 天生結合 LLM,支援複雜任務拆解 依賴外部 LLM,不那麼一體化
實戰快速導覽
安裝
# 用 pip
pip install stagehand python-dotenv
# 安裝playwright
python -m playwright install
# 裝 chromium 瀏覽器
python -m playwright install chromium
建立 .env
export BROWSERBASE_API_KEY="your_browserbase_api_key"
export BROWSERBASE_PROJECT_ID="your_browserbase_project_id"
export MODEL_API_KEY="your_model_api_key" # OpenAI, Anthropic, etc.
建立程式碼 main.py
import asyncio
import os
from stagehand import Stagehand, StagehandConfig
from dotenv import load_dotenv
load_dotenv()
async def main():
config = StagehandConfig(
env="BROWSERBASE",
api_key=os.getenv("BROWSERBASE_API_KEY"),
project_id=os.getenv("BROWSERBASE_PROJECT_ID"),
model_name="gpt-4o",
model_api_key=os.getenv("MODEL_API_KEY")
)
stagehand = Stagehand(config)
try:
await stagehand.init()
page = stagehand.page
await page.goto("https://docs.stagehand.dev/")
await page.act("click the quickstart link")
result = await page.extract("extract the main heading of the page")
print(f"Extracted: {result}")
finally:
await stagehand.close()
if __name__ == "__main__":
asyncio.run(main())
驗證與測試
若要用本地端的瀏覽器的話,可以改成下面的程式碼
import asyncio
import os
from dotenv import load_dotenv
from stagehand import StagehandConfig, Stagehand
load_dotenv()
async def main():
# 检查API密钥是否设置
api_key = os.getenv("OPENAI_API_KEY")
config = StagehandConfig(
env="LOCAL", # 本地运行
# AI模型配置 - 使用环境变量
model_name="gpt-4o-mini", # 使用更便宜的模型
model_api_key=api_key, # 从环境变量读取
# 本地运行配置
headless=False, # 显示浏览器窗口
verbose=3, # 详细日志
debug_dom=True, # DOM调试
)
# 使用配置创建Stagehand实例
stagehand = Stagehand(config)
# 初始化Stagehand(启动浏览器会话)
await stagehand.init()
# 获取页面对象,用于后续的页面操作
page = stagehand.page
await page.goto("https://rain.tips/")
# # 使用observe()取得文章的連結
blog_links = await page.observe("取得文章中的所有連結)
print(f"✅ Page link: {blog_links}")
await page.act(blog_links[0])
data_post_1 = await page.extract("取得文章的標題和內文")
print(f"✅ 文章資訊如下: {data_post_1}")
if __name__ == "__main__":
asyncio.run(main())
總結:為什麼 Stagehand 是下一代自動化框架?
語言直覺更自然,人類可理解
對 UI 變化具彈性、不易失效
結合 LLM,自動拆解任務,效率提升數倍
支援本地與雲端,開發與生產環境都得心應手
Stagehand 正重新定義瀏覽器自動化,不再只是死板指令,而是一場「程式控+AI 智能」的完美結合,無論對開發者或 AI 自動化愛好者,都是一大利器。快一起駕馭它,打造更強、更智慧的自動化流程!
參考資料
BrowserBase
GitHub Stagehand
Demo
開發說明文件
https://www.aivi.fyi/aiagents/introduce-stagehand
by Rain Chu | 5 月 12, 2025 | AI , 語音合成
Speech Synthesis 是一款免費的線上文字轉語音工具,支援超過 40 種語言和數百種語音選擇,並可自訂語調(SSML)、節奏與語氣,讓語音更貼近您的需求。
🔑 主要特色
多語言支援 :涵蓋繁體中文、粵語、英語、日語等多種語言,滿足全球用戶的需求。
多樣化語音選擇 :提供數百種語音,包括不同性別、年齡和口音的選項。
自訂語音參數 :可調整語速(如 x-slow、slow、medium、fast、x-fast)、語調和音量,打造個性化的語音輸出。
支援 SSML :支援語音合成標記語言(SSML),讓進階用戶能夠更精細地控制語音輸出。
多種音訊格式 :可選擇 MP3、WAV 等格式,並提供不同的音質設定,如 16kHz-128k、24kHz-160k、48kHz-192k。
🧪 使用方式
前往 Speech Synthesis 官方網站 。
在「TEXT」欄位輸入您要轉換的文字,或上傳文件。
選擇語言和語音,並調整語速、語調和音量等參數。
點擊「合成語音」按鈕,系統將生成語音檔案。
試聽並下載生成的語音檔案。
🔍 與其他熱門 TTS 工具的比較
工具名稱 語言支援數 語音選擇數 自訂參數 支援 SSML 價格 Speech Synthesis 40+ 數百種 ✅ ✅ 免費 TTSMaker 100+ 600+ ✅ ✅ 免費 Google Text-to-Speech 30+ 220+ ✅ ✅ 免費(有使用限制) MyEdit 26+ 多種 ✅ ❌ 免費
參考資料
by Rain Chu | 4 月 26, 2025 | 3D , AI
OpenAI 推出了兩款開源的 3D 建模工具:Point-E 和 Shap-E ,分別專注於從文字或圖片生成 3D 模型,接下來介紹這兩個模型的核心特性、技術架構、使用方法,並比較它們的優缺點,協助您選擇最適合的工具。
🔍 Point-E:快速生成 3D 點雲的 AI 工具
📌 核心特點
輸入類型 :支援文字描述或 2D 圖片。
輸出格式 :生成彩色點雲(point cloud),可轉換為網格(mesh)。
處理速度 :在單張 GPU 上約需 1–2 分鐘。
技術架構 :採用兩階段擴散模型,先生成合成視圖,再生成點雲。
應用場景 :快速原型設計、教育用途、遊戲開發等。
🧪 使用方法
安裝 :
生成點雲 :
🧠 Shap-E:生成高品質 3D 隱式模型的 AI 工具
📌 核心特點
輸入類型 :支援文字描述或 2D 圖片。
輸出格式 :生成隱式函數,可渲染為帶紋理的網格或神經輻射場(NeRF)。
處理速度 :在單張 GPU 上可於數秒內生成。
技術架構 :先訓練編碼器將 3D 資產映射為隱式函數參數,再訓練條件擴散模型生成 3D 模型。
應用場景 :高品質 3D 資產創建、AR/VR 應用、3D 列印等。
🧪 使用方法
安裝 :
生成 3D 模型 :
使用 sample_text_to_3d.ipynb
或 sample_image_to_3d.ipynb
範例筆記本。
可將生成的模型導出為常見的 3D 格式,供進一步編輯或列印。
⚖️ Point-E 與 Shap-E 的比較
特性 Point-E Shap-E 輸入類型 文字、圖片 文字、圖片 輸出格式 彩色點雲,可轉為網格 隱式函數,可渲染為網格或 NeRF 處理速度 約 1–2 分鐘 數秒內 模型架構 兩階段擴散模型 編碼器 + 條件擴散模型 輸出品質 中等,適合快速原型設計 高品質,適合精細 3D 資產創建 應用場景 快速原型、教育、遊戲開發 高品質 3D 資產、AR/VR、3D 列印等
🧩 適用場景建議
Point-E :適合需要快速生成 3D 模型的場景,如教育、初步設計、遊戲開發等。
Shap-E :適合對 3D 模型品質要求較高的場景,如 AR/VR 應用、3D 列印、動畫製作等。
🔗 資源連結
參考資訊
VIDEO
VIDEO
by Rain Chu | 4 月 21, 2025 | AI , Chat , 程式開發 , 語音辨識
GibberLink 是一項創新的開源專案,讓 AI 助理之間以更高效的方式進行音頻對話。這項技術於 2025 年的 ElevenLabs 倫敦黑客馬拉松中脫穎而出,獲得了全球首獎。
🔍 GibberLink 是什麼?
GibberLink 是由 Boris Starkov 和 Anton Pidkuiko 兩位開發者在黑客馬拉松期間開發的開源專案。其核心理念是讓 AI 助理在識別到對方也是 AI 時,切換到一種更高效的通訊協議,使用聲波傳輸結構化數據,而非傳統的人類語言。這種方式不僅提高了通訊效率,還減少了計算資源的消耗。
⚙️ GibberLink 的運作原理
初始對話 :兩個 AI 助理以人類語言開始對話。
身份識別 :當其中一方識別到對方也是 AI 助理時,提出切換到 GibberLink 模式。
協議切換 :雙方同意後,切換到使用聲波傳輸數據的通訊協議。
數據傳輸 :利用開源的 ggwave 庫,將結構化數據編碼為聲波信號,進行高效的數據交換。
這種方式類似於早期撥號調製解調器的數據傳輸,但經過現代化的優化,更適合當前的 AI 通訊需求。
🔐 AI 加密對話的實現
GibberLink 不僅提高了通訊效率,還注重數據的安全性。在進行聲波數據交換時,AI 助理會使用非對稱加密技術(如 P-256 密鑰對)進行加密,確保通訊內容的保密性和完整性。這種端對端的加密方式,即使通訊被攔截,也無法解密其中的內容。
🌐 如何體驗 GibberLink?
🏆 為何值得關注?
高效通訊 :GibberLink 模式下的 AI 對話比傳統語音通訊快約 80%,大幅提升了通訊效率。
資源節省 :減少了語音生成和語音識別的計算資源消耗,降低了運營成本。
安全保障 :採用先進的加密技術,確保通訊內容的安全性。
開源共享 :開源的特性使得開發者可以自由使用、修改和擴展該技術。
🔧 GibberLink 安裝與本地部署教學
GibberLink 是一個開源專案,您可以在本地環境中部署並體驗 AI 之間的聲音通訊。
1. 安裝 Node.js(建議版本:v20)
GibberLink 需要 Node.js 環境,建議使用 v18.18.0 或更高版本。以下是使用 NVM 安裝 Node.js 的步驟:
curl -fsSL https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.4/install.sh | bash
source ~/.bashrc
nvm install 20
nvm use 20
nvm alias default 20 # 可選,將 Node.js 20 設為預設版本
2.下載並設定 GibberLink 專案
git clone https://github.com/PennyroyalTea/gibberlink.git
cd gibberlink
mv example.env .env
並且編輯 .env
檔案,填入您的 ElevenLabs 和 LLM 提供者的 API 金鑰。
3.安裝相依套件並啟動專案
啟動後,您可以透過瀏覽器訪問 http://localhost:3003
來使用 GibberLink。
參考資料
by Rain Chu | 4 月 20, 2025 | AI , 圖型處理 , 影片製作 , 繪圖
Unwatermark.a i ,即使是初學者也能輕鬆完成這項任務。這款線上工具無需註冊、完全免費,操作簡單,讓你在 6 秒內開始體驗 AI 去字幕的強大功能。
🧩 Unwatermark.ai 的主要特色
✅ 完全免費,無需註冊
使用 Unwatermark.ai,你不需要提供任何個人資訊或創建帳號,只需打開網站,即可立即開始使用,省去繁瑣的註冊流程。
🎨 簡單的操作介面
上傳影片後,利用畫筆或矩形工具標記想要去除的字幕區域,AI 會自動分析並去除標記區域的字幕,同時填補背景,保持影片畫質清晰自然。
📁 支援多種影片格式
Unwatermark.ai 支援 MP4、AVI、MOV 等常見影片格式,無需擔心格式相容性問題。
⚡ 快速處理,節省時間
得益於高效的 AI 演算法,Unwatermark.ai 能夠在短時間內完成字幕去除,讓你快速獲得無字幕的影片。
💰 價格合理,選擇多樣
除了免費使用外,Unwatermark.ai 也提供多種付費方案,滿足不同用戶的需求。
🛠️ 如何使用 Unwatermark.ai?
打開網站 :前往 Unwatermark.ai 官方網站 。
上傳影片 :點擊「上傳影片」按鈕,選擇你想要去除字幕的影片。
標記字幕區域 :使用畫筆或矩形工具,標記影片中需要去除的字幕位置。
開始處理 :點擊「開始去除」按鈕,AI 將自動處理影片。
下載影片 :處理完成後,下載無字幕的影片即可。
🎯 適合哪些人使用?
影片創作者 :需要去除原始影片中的字幕,以便重新編輯或添加新的字幕。
教育工作者 :希望使用無字幕的影片作為教學素材。
社群媒體使用者 :想要分享無字幕的影片,提升觀賞體驗。
初學者 :沒有影片編輯經驗,但需要簡單快速地去除字幕。
參考資料
by Rain Chu | 3 月 18, 2025 | AI , API
Groq 是一家擁有高效能硬體運算的公司,提供大型語言模型(LLM)的推理運算提供加速解決方案,他們的硬體相較於傳統 GPU,更加快速,並且支援多種主流開源模型,包括 Llama 3、Mistral 等。
Groq API 的主要特色
1. 提供 Playground 供快速測試
為了讓開發者能夠直觀地體驗和測試模型,Groq 提供了線上 Playground。使用者可以在此平台上直接輸入指令或問題,立即獲得模型的回應,無需進行繁瑣的設定或部署。
2. 詳細的 API 文件
Groq 提供了詳細且易於理解的 API 文件,涵蓋從基本使用到進階功能的各種說明,協助開發者快速上手並整合到自己的專案中。
3. 高速反應能力
得益於 Groq 的硬體架構,API 的反應速度極快,能夠即時處理大型語言模型的推理需求,提升使用者體驗。
如何開始使用 Groq API
註冊並獲取 API 金鑰 :
前往 Groq 官方網站 ,點擊「Login」或「Get API Key」,按照提示完成註冊並獲取 API 金鑰。
選擇開發環境並調用 API :
Python :使用 OpenAI 兼容的客戶端調用 Groq 提供的模型。
import openai
openai.api_key = 'YOUR_GROQ_API_KEY'
openai.api_base = 'https://api.groq.com/openai/v1'
response = openai.ChatCompletion.create(
model="groq/llama3-70b-8192",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "請介紹一下 Groq API 的特色。"}
]
)
print(response.choices[0].message['content'])
其他語言 :Groq 的 API 兼容 OpenAI 的接口,因此在其他編程語言中,只需將 API 基礎 URL 更改為 https://api.groq.com/openai/v1
,並使用您的 Groq API 金鑰即可。
參考資料
近期留言