by rainchu | 12 月 12, 2025 | Agent , AI
一句話說明
支援工具調用、多 Agents 協作的微軟最強開源可視化 Agents 框架 — 輕鬆打造旅遊規劃智能體、處理複雜任務的最佳利器!
在 AI 智能體(AI Agents)快速崛起的時代,微軟推出的 AutoGen Studio 讓任何人都能以「零代碼」、「可視化拖拉介面」打造各種自動化工作流。無論是旅遊規劃智能體、資料分析助理、客服回覆機器人,甚至多智能體互動的複雜任務流程,都能在短時間內建立與部署。
AutoGen Studio 讓過去需要高階程式能力的 AI 協作流程變得像玩積木一樣簡單,只要拖動 Agents、設定工具、串接提示與流程,就能建立具備邏輯判斷、工具調用(Tool Calling)、資料取得與任務分解能力的完整 AI 系統。
🔥 為什麼 AutoGen Studio 如此強大?
1. 零代碼可視化工作流
AutoGen Studio 最大亮點就是它的 Flow 介面: 只需拖曳 Agents、工具與節點,即可建立流程圖般的 AI 工作流程。 不用寫一行程式碼,新手也能三分鐘上手!
2. 支援多智能體協作(Multi-Agent Collaboration)
要讓多個 AI Agents 聊天、討論、分工? AutoGen Studio 完全支援!
例如:
規劃旅遊行程的 Planner Agent
搜尋航班與飯店的 Tools Agent
彙整結果輸出的 Writer Agent
它們可以自動來回互動、分工完成任務,就像一組虛擬團隊。
3. 強大的工具調用(Tool Calling)
AutoGen 完整支援 LLM 的工具調用能力,例如:
呼叫外部 API
執行 Python 程式
查詢資料庫
擷取網頁內容
這意味著 AI 不再只是回答,而是能夠「行動」。
4. 開源、可擴充、跨平台
AutoGen 由微軟研究院開源,擁有極高可擴充性:
可以接入任何 LLM(OpenAI、Azure、Claude…)
可以擴展自訂工具
可與 AutoGen Python SDK 整合
可部署於本地或雲端
5. 專為「複雜任務」設計
AutoGen 的重點不只是聊天,而是處理需要多步驟推理與協作的任務,例如:
報表自動化
資料分析
內容生成
專案規劃
多工具串聯流程
其強大的任務協作機制遠超一般 ChatGPT Prompt Flow。
🚀 AutoGen Studio 三分鐘快速入門
以下是最常見的新手流程,只要三分鐘就能打造第一個智能體工作流!
步驟 1:建立一個新的 Flow
在 Studio 中點擊「Create Flow」即可開始建構可視化流程。
步驟 2:加入兩個 Agents
例如:
User Proxy Agent :負責接收使用者輸入
Assistant Agent :負責執行任務
也可以加入更多 Agents 並設定參數,例如角色、工具、溝通方式等。
步驟 3:加入工具(Tools)
你可以啟用 AutoGen 內建工具或自訂:
Python 執行器
HTTP API
檔案處理
計算器
資料庫查詢
步驟 4:連接節點、設定觸發事件
就像畫流程圖一樣,連接 Agents → 工具 → 回傳結果。
步驟 5:點擊「Run」即可開始執行
AI 智能體會自動互動並完成任務。
🧭 範例:打造「旅遊規劃 AI 智能體工作流」
這是一個 AutoGen Studio 非常經典也最吸引人的應用情境!
你可以建立:
Agent 角色分工
旅遊規劃師(Planner Agent) :負責制定行程
搜尋工具 Agent(Search Tool Agent) :查詢航班、景點、天氣
彙整撰稿 Agent(Writer Agent) :輸出易讀的旅遊計畫表
工具串接
Web Search API
天氣 API
飯店 API
Python 資料處理
輸出成果
AutoGen Studio 能交付:
只要輸入:「幫我規劃 5 天東京自由行」,就能自動完成一整套旅遊計畫!
💡 AutoGen Studio vs 傳統 Agents 工具
功能 傳統 Agents AutoGen Studio 可視化介面 ❌ 無 ✔ 直覺拖拉 工具調用 部分支援 ✔ 深度整合 多 Agents 協作 複雜 ✔ 自動化運作 部署方式 程式碼導向 ✔ 零代碼工作流 新手友善度 低 非常高
AutoGen Studio 就是為「人人都能打造 AI Agents」而生。
⭐ AutoGen Studio + Animon AI:最強 AI Agents 組合
目前網路上爆紅的 Animon AI(AI Agents 捷徑平台) 常與 AutoGen/AutoGen Studio 結合使用。
Animon AI 擅長:
快速調用多個模型
整合多來源資料
部署輕量級 Agents
AutoGen Studio 擅長:
視覺化工作流
多 Agents 協作
擴充與工具調用
兩者搭配可建立更完整的 AI Agents 生態。
📌 AutoGen Studio 官方資源
by Rain Chu | 8 月 8, 2025 | Agent , AI , Javascript , Python , RPA , 瀏覽器 , 程式開發
想用 AI 控制網頁自動化,但程式碼又要精準可靠,同時享受自然語言,高效又方便?那你絕不能錯過由 Browserbase 團隊推出的 Stagehand —— 這款專為 AI 時代設計的瀏覽器自動化框架,不僅支援 TypeScript 與 Python、可本地或雲端部署,還比 Browser‑Use 更快、更耐變動!
Stagehand 兼具控制力與智慧的 AI 瀏覽器自動化框架
Stagehand 是以 Playwright 為核心構建的 AI-native 自動化工具,它加入了 LLM 判斷能力,結合程式精準控制與自然語言指令,令自動化腳本更穩定、更智慧也更高效
自然語言 + 程式碼混合操作 :你可以用程式寫明確動作,也能用「act(‘點擊第一個 Stagehand 元件’)」這樣類人語法完成UI操作 。
接口完整,支援察看、執行與資料萃取 :核心三大命令 act、observe、extract,讓操作更透明、更可控
容錯與自恢復能力 :UI 略有變動也不怕,Stagehand 的 observe + 快取策略讓腳本更具彈性
完美整合 Playwright :所有 Playwright 腳本都能無縫升級 Stagehand,省心又高效
核心玩法!TypeScript/JavaScript 快速上手範例
// Use Playwright functions on the page object
const page = stagehand.page;
await page.goto("https://github.com/browserbase");
// Use act() to execute individual actions
await page.act("click on the stagehand repo");
// Use Computer Use agents for larger actions
const agent = stagehand.agent({
provider: "openai",
model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");
// Use extract() to read data from the page
const { author, title } = await page.extract({
instruction: "extract the author and title of the PR",
schema: z.object({
author: z.string().describe("The username of the PR author"),
title: z.string().describe("The title of the PR"),
}),
});
這段程式完整示範了初始化、導航、AI 驅動操作到資料萃取的流程,不僅省事,也大幅提升開發效率。
Stagehand 與 Browser-Use 比較
功能面 Stagehand(此文主角) Browser-Use 控制精準度 Token 級動作掌控 + 自然語言指令混合 攻擊角度偏自然語言,程式控制較弱 容錯能力 observe + 快取策略,對 DOM 變化更耐受缺少自恢復機制 雲端支援 原生整合 Browserbase,輕鬆雲端部署 需額外集成,無預設雲平台支援 語言支援 TypeScript / Python 主要依賴 Python AI 整合 天生結合 LLM,支援複雜任務拆解 依賴外部 LLM,不那麼一體化
只要先學四個指令,快速上手
指定去那一個網頁
goto():
# 初始化
page = stagehand.page
# 指定去那一個頁面
await page.goto("https://rain.tips/")
使用自然語言操作
act():
await page.act("點選確定按鈕");
抓取數據資料
extract():
post = await page.extract("取得標題")
預覽功能
observe():
links = await page.observe("找到頁面中的所有連結")
實戰快速導覽
安裝
# 用 pip
pip install stagehand python-dotenv
# 安裝playwright
python -m playwright install
# 裝 chromium 瀏覽器
python -m playwright install chromium
建立 .env
export BROWSERBASE_API_KEY="your_browserbase_api_key"
export BROWSERBASE_PROJECT_ID="your_browserbase_project_id"
export MODEL_API_KEY="your_model_api_key" # OpenAI, Anthropic, etc.
建立程式碼 main.py
import asyncio
import os
from stagehand import Stagehand, StagehandConfig
from dotenv import load_dotenv
load_dotenv()
async def main():
config = StagehandConfig(
env="BROWSERBASE",
api_key=os.getenv("BROWSERBASE_API_KEY"),
project_id=os.getenv("BROWSERBASE_PROJECT_ID"),
model_name="gpt-4o",
model_api_key=os.getenv("MODEL_API_KEY")
)
stagehand = Stagehand(config)
try:
await stagehand.init()
page = stagehand.page
await page.goto("https://docs.stagehand.dev/")
await page.act("click the quickstart link")
result = await page.extract("extract the main heading of the page")
print(f"Extracted: {result}")
finally:
await stagehand.close()
if __name__ == "__main__":
asyncio.run(main())
驗證與測試
若要用本地端的瀏覽器的話,可以改成下面的程式碼
import asyncio
import os
from dotenv import load_dotenv
from stagehand import StagehandConfig, Stagehand
load_dotenv()
async def main():
# 检查API密钥是否设置
api_key = os.getenv("OPENAI_API_KEY")
config = StagehandConfig(
env="LOCAL", # 本地运行
# AI模型配置 - 使用环境变量
model_name="gpt-4o-mini", # 使用更便宜的模型
model_api_key=api_key, # 从环境变量读取
# 本地运行配置
headless=False, # 显示浏览器窗口
verbose=3, # 详细日志
debug_dom=True, # DOM调试
)
# 使用配置创建Stagehand实例
stagehand = Stagehand(config)
# 初始化Stagehand(启动浏览器会话)
await stagehand.init()
# 获取页面对象,用于后续的页面操作
page = stagehand.page
await page.goto("https://rain.tips/")
# # 使用observe()取得文章的連結
blog_links = await page.observe("取得文章中的所有連結)
print(f"✅ Page link: {blog_links}")
await page.act(blog_links[0])
data_post_1 = await page.extract("取得文章的標題和內文")
print(f"✅ 文章資訊如下: {data_post_1}")
if __name__ == "__main__":
asyncio.run(main())
總結:為什麼 Stagehand 是下一代自動化框架?
語言直覺更自然,人類可理解
對 UI 變化具彈性、不易失效
結合 LLM,自動拆解任務,效率提升數倍
支援本地與雲端,開發與生產環境都得心應手
Stagehand 正重新定義瀏覽器自動化,不再只是死板指令,而是一場「程式控+AI 智能」的完美結合,無論對開發者或 AI 自動化愛好者,都是一大利器。快一起駕馭它,打造更強、更智慧的自動化流程!
參考資料
BrowserBase
GitHub Stagehand
Demo
開發說明文件
https://www.aivi.fyi/aiagents/introduce-stagehand
by Rain Chu | 2 月 23, 2025 | Agent , AI , Chat , Prompt
硅基流動 (SiliconFlow)是一家致力於加速通用人工智慧(AGI)普惠化的公司,主要可以讓生成式人工智慧惠及開發者和終端使用者使用,最近,硅基流動與華為雲合作,推出了基於昇騰雲的 DeepSeek R1 和 V3 推理服務 ,為使用者提供高效、穩定的 AI 模型推理體驗。
DeepSeek R1 與硅基流動的合作
DeepSeek R1 是一款由強化學習驅動的推理模型,旨在解決模型生成內容的重複性和可讀性問題。在強化學習之前,DeepSeek R1 引入了冷啟動數據,進一步優化推理效能。然而,近期由於 DeepSeek 官方伺服器頻繁出現繁忙狀態 ,許多使用者在使用時受到限制。
為了解決這一問題,硅基流動與華為雲合作,將 DeepSeek R1 部署在基於昇騰的計算平台上 ,提供更 穩定、高速 的 DeepSeek R1 API 服務 ,讓使用者可以在更低的成本下獲得優質的 AI 推理服務。
如何使用 DeepSeek R1 API
使用者可以透過 註冊硅基流動平台 ,取得 API 金鑰,並將 DeepSeek R1 模型整合到各種應用之中。硅基流動提供了詳細的 技術文件與教學 ,幫助開發者快速上手,充分發揮 DeepSeek R1 的強大功能。
硅基流動透過與華為雲的合作,成功解決了 DeepSeek R1 在使用過程中的伺服器繁忙問題 ,為開發者和終端使用者提供了一個 高效、穩定的 AI 模型推理平台 。這不僅展現了 硅基流動的技術優勢 ,也體現了其在推動 AGI 普惠化 方面的努力。
API使用
by rainchu | 11 月 28, 2024 | Agent , AI
Flowise 是一款開源的低代碼工具,一般人也可以輕易地使用,用於構建自定義的大語言模型(LLM)編排流程和 AI 代理。透過直觀的拖放介面,使用者可以輕鬆設計複雜的 AI 工作流程,無需深入的程式設計知識。
Flowise 的主要特點:
開源且免費 :Flowise 完全開源,使用者可自由使用並進行二次開發,無需擔心授權問題。 GitHub
低代碼開發 :透過簡單的拖放介面,使用者可以快速構建 LLM 應用,縮短開發週期。 Flowise AI Docs
多代理支援 :Flowise 提供多代理系統,允許使用者設計可與外部工具和資料來源互動的代理,實現更高效的任務處理。 Flowise AI Docs
靈活的工作流程設計 :使用者可以根據需求,自定義工作流程的邏輯和順序,滿足不同場景的應用需求。
Flowise 與其他 AI 代理工具的差異:
與 Langflow 的比較 :Langflow 專注於自然語言處理,提供可視化介面來構建和調試語言處理流程。相比之下,Flowise 更強調 LLM 的編排和代理的靈活性,適用範圍更廣。
與 Dify 的比較 :Dify 致力於簡化 AI 應用的部署,提供一站式解決方案。而 Flowise 更專注於工作流程的設計和代理的構建,提供更大的自定義空間。
與其他工具的比較 :Flowise 的開源性和低代碼特性,使其在靈活性和可擴展性方面具有優勢,適合需要快速迭代和自定義需求的開發者。
參考資料
VIDEO
by Rain Chu | 11 月 6, 2024 | Agent , AI
繼之前提到的 Ahthropic Computer Use ,那時候超級驚豔的,馬上就看到MS也有推出自己的版本,雖然沒有自動執行功能,但可以配合 pyautogui 達成,雖然不支援中文,但可以透過中文OCR 或是 tesseract 處理
安裝到本地端
先建立一個虛擬環境起來
conda create -n omni python=3.12 -y
conda activate omni
選項:有GPU的,先把CUDA安裝起來
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
整個安裝也很簡單,就五個步驟
git clone https://github.com/microsoft/OmniParser.git && cd OmniParser
pip install -r requirements.txt
huggingface-cli download --repo-type model microsoft/OmniParser --local-dir weights --include "icon_detect/*" "icon_caption_blip2/*" "icon_caption_florence/*"
python /home/Ubuntu/OmniParser/weights/convert_safetensor_to_pt.py
python gradio_demo.py
OmniParser 2.0 更新
OmniParser V2 的主要改進與優勢
1. 更大、更乾淨的訓練資料集
OmniParser V2 採用了規模更大且模型已經清洗良好的「icon caption + grounding」資料集,涵蓋更豐富的 UI 標記與功能描述,進而提升模型對互動區域的識別能力。
2. 顯著降低推理延遲
V2 在推理速度上較 V1 快了 60%,平均延遲為每畫面 0.6 秒(A100 GPU)或 0.8 秒(RTX 4090),適合即時 GUI 解讀與互動場景。
3. Grounding 準確度大幅提升
在「ScreenSpot Pro」這項標註小型 UI 元素的基準上,搭配 GPT-4o,V2 的平均精準度達到 39.6% ,遠高於 GPT-4o 原本只有 0.8% 的表現。
4. 整合 OmniTool,打造完整 AI GUI Agent 流程
V2 支援搭配 OmniTool,形成一個即插即用的環境,可控制 Windows 11 VM 並搭配各家大型語言模型,如 OpenAI (4o, o1, o3-mini)、DeepSeek R1、Qwen 2.5VL 甚至 Anthropic,使建構 GUI Agent 更簡單。
5. 擴大使用場景與穩定性
除了支援 PC 與手機螢幕截圖外,V2 的架構更穩定、更泛用,適合建構可解讀 GUI 的多種應用。
V1 vs V2 功能比較表
特性 OmniParser V1 OmniParser V2 訓練資料集 標準 icon caption+grounding 少量 更大、更乾淨的訓練資料集 推理速度 較慢 快了約 60%,平均延遲 0.6s–0.8s Grounding 準確度 基準低,難以處理小 UI 元素 搭配 GPT-4o 平均達 39.6% 準確率 操作流程整合性 需手動整合模型與 LLM 支援 OmniTool,快速與多款 LLM 串接 適用場景廣度 較狹窄 更廣泛,包含各種 GUI 互動與截圖輸入
下載新的模型
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
如果你是 Windows 可以去 Hugginface 下載模型後,並且在目錄下建立 weights\icon_caption_florence ,把下載來的模型放在目錄中即可
https://huggingface.co/microsoft/OmniParser-v2.0/tree/main
OmniParser 1.5 更新
先下載模型
python weights/convert_safetensor_to_pt.py
For v1.5:
download 'model_v1_5.pt' from https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5, make a new dir: weights/icon_detect_v1_5, and put it inside the folder. No weight conversion is needed.
執行指令要改成 1.5 版本
python gradio_demo.py --icon_detect_model weights/icon_detect_v1_5/model_v1_5.pt --icon_caption_model florence2
支援其他的語言
舉例來說,要改成中文,請找到專案下的 utils.py ,將 en 改成 ch
reader = easyocr.Reader(['en'])
paddle_ocr = PaddleOCR(
# lang='en', # other lang also available
lang='ch', # other lang also available
use_angle_cls=False,
use_gpu=False, # using cuda will conflict with pytorch in the same process
show_log=False,
max_batch_size=1024,
use_dilation=True, # improves accuracy
det_db_score_mode='slow', # improves accuracy
rec_batch_num=1024)
在介面中選取使用 PaddleOCR
相關資源
OmniParser 原始碼
OmniParser 官網
OmniParser 模型
https://blog.stoeng.site/20241030.html
by Rain Chu | 11 月 6, 2024 | Agent , AI , Chat
最近 OpenAI 推出了 Canvas ,開始流行在 ChatGPT 上頭寫程式、寫郵件等等,馬上就有人推出本地端一樣的服務 Open Canvas ,解放了你只能在 OpenAI 上使用的困境,除了 Git 以外,也馬上有了 docker 版本,可以快速體驗
Open Canvas 架構圖
Open Canvas Workflow
相關資源
Open Canvas 原始檔
Open Canvas Docker
LangGraph Studio
LangSmith
VIDEO
近期留言