by Rain Chu | 9 月 14, 2025 | AI , Robot , 數據分析 , 模型
建立自己的 HopeJR 機器人!
你有想要一隻能做精密手部操作的人形機器人?
HopeJR 正是這樣一款開源專案:具備人手與機械手臂,搭配外骨骼(exoskeleton)與手套控制,能實現靈巧、精確的手部動作,非常適合高階操作任務。
以下帶大家從硬體到軟體,完整建立 HopeJR 的流程教學與心得。
HopeJR 是什麼?
HopeJR 是舉債於 LeRobot 專案下的一款開放源碼人型機械手臂與手的系統。使用者可以以手套與外骨骼裝置控制 HopeJR 的手與手臂動作。
它包含幾個模組化的部分:機械手、機械臂、手套(glove)、外骨骼(exoskeleton)控制器。硬體、軟體皆為開源。
建置 HopeJR 教學
以下是步驟示範,讓你從零開始組裝與操作 HopeJR。
一、環境與先決條件
有外骨骼與手套控制器(homunculus_glove/homunculus_arm 等)
有機械手與機械手臂硬體模組
一台能連接這些裝置的電腦,USB 接口、驅動支援
安裝 Python 3.10+,PyTorch 等軟體環境,以及 LeRobot 套件
二、安裝 LeRobot 套件
git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[hopejr]"
三、設備端與通訊埠設定(Device Configuration)
使用 lerobot-find-port
指令來找出每個 HopeJR 組件(手臂、手、手套、外骨骼控制器)的 USB 埠。
記錄每個模組對應的 port,例如 /dev/tty.usbmodemXXXX
或 Windows 上的類似 COM 埠,用於後續校正和遙控。
四、校正(Calibration)
為了讓控制更加精確,你必須為每個組件做校正:
手(Hand)校正 :把手指關節全部移動至可動範圍,設定最小/最大角度。
手套(Glove)校正 :同樣地,移動手套中每根手指的所有關節,記錄該裝置讀值的最小與最大。
手臂(Arm)校正 :肩膀、手肘、手腕的 pitch/yaw/roll 等關節都要校正動作範圍。
外骨骼(Exoskeleton)校正 :這部分讓人手動作透過外骨骼映射到 HopeJR 的機械手臂,在校正時要移動所有關節達到最大與最小。
校正結果會保存在本地,例如 ~/.cache/huggingface/lerobot/calibration/...
的路徑內。
五、遠端操作(Teleoperation)
校正完成後,就能使用遙控命令讓你手與手臂控制 HopeJR 機械手部分動作:
lerobot-teleoperate \
--robot.type=hope_jr_hand \
--robot.port=<手的 USB 埠> \
--robot.id=blue \
--robot.side=right \
--teleop.type=homunculus_glove \
--teleop.port=<手套 USB 埠> \
--teleop.id=red \
--teleop.side=right \
--display_data=true \
--fps=30
對手臂同樣使用遠端操作命令,只是 robot.type 填 hope_jr_arm,teleop.type 用 homunculus_arm。
六、錄製、重放與訓練(Record/Replay/Train)
Record :錄製你用手套/外骨骼控制手部或手臂的操作數據,配合影像或鏡頭視訊。這些資料可以用來訓練模型。
Replay :重放之前錄製的數據,測試操作是否準確。
Train :若你想讓你的 HopeJR 有自主行為或能在某些動作上優化,可以用 LeRobot 的訓練指令,搭配錄製的資料或模擬環境進行強化學習或 imitation learning。
HopeJR 的優勢與適用場景
優勢項目 說明 精準控制 外骨骼 + 手套 + 校正過程能實現手指、手腕、肩肘等關節的細緻動作。 模組開源 HopeJR 所有硬體與軟體部分為開源,可以自行組裝或改裝。 適合高階任務 適用於需要精細手部操作的任務,例如物件操作、握持/擺動、復健機器人等。 社群與生態支持 LeRobot 有模型、範例、文檔與活躍社群可協助新手入門。
延伸閱讀
官網:
https://github.com/huggingface/lerobot
說明:
https://huggingface.co/docs/lerobot/hope_jr
硬體教學:
https://huggingface.co/docs/lerobot/so101
by Rain Chu | 9 月 3, 2025 | AI , 影片製作
你還在用 ChatGPT 當小說幫手嗎?那你一定得看看這款全網最狂的 AI 創作工具 —— ChatArt Pro 。它擁有隱藏版「成人模式(NSFW Mode)」,可寫言情/成人小說,搭配特色影片生成,創意創作完全無限制!
功能亮點一覽
NSFW 成人模式 :啟動「Romance Interaction Mode」或「大人模式」後,創作範圍無內容限制,可書寫成人言情小說與影片腳本,突破 ChatGPT 等 AI 工具的門檻限制。
小說/短片生成 :除了小說文本(言情、成人情節),還可將故事情節轉成短片腳本,結合影像模板快速生成影片內容。
完全免費、無次數限制 :提供無限制創作,讓創作者自由產出長篇小說或影片,不受用量限制。
流程直覺易操作 :無需技術門檻,文字敘述輸入後即生成完整小說章節或影片片段,適合一鍵創作。
使用教學步驟(以小說生成功能為例)
訪問 ChatArt Pro 網站(app.chatartpro.com
)。
開啟「Global Settings」進入設定頁面,填寫小說標題、背景設定、角色資訊、風格偏好等。
啟用「Romance Interaction Mode」(大人模式),解鎖成人創作功能。
點擊「Go to Story Generation」進入小說生成工具。
按「Generate」開始生成小說,AI 會即時輸出完整章節。
若想整理段落內容,可按「Apply」或「Copy」,進行編輯與保存。
實測心得與注意事項
創作自由度高 :能透過簡短文字提示生成完整成人小說,創作氛圍更加自由與大膽。
生成速度快、連貫性佳 :整體體驗流暢、情節銜接自然,挺適合構想故事骨架。
浮水印與進階功能 :若要無浮水印匯出影片或小說建議,可考慮升級 Pro 版本。
使用需注意道德與法律界線 :請務遵循本地法律與使用條款,禁止未滿 18 歲使用及違法內容生成。
參考資料
https://app.chatartpro.com
by Rain Chu | 9 月 3, 2025 | AI , 影片製作
Animon AI 是什麼?
Animon AI 是由日本 CreateAI 推出的首款 專為動漫影片設計的 AI 生成平台 ,使用者可透過瀏覽器上傳圖片,即可生成 5 秒左右的動畫片段。這項工具由專業動漫團隊協作開發,風格自然流暢,適合創作者快速生成動畫素材。
免費無限生成是真的嗎?
完全免費 :基礎方案允許上傳圖片後無限生成動畫,不限次數,十分罕見。
限制條件 :免費方案僅支援 480p 影片,且影片會內嵌浮水印;若想去除浮水印、升級至 HD 視訊,則需付費。
訂閱方案 :Fans 方案約 9.9 美元/月,提供 50GB 儲存與無浮水印 480p 影片;Studio 方案則更高階,支援 1080p 超清,且支援大量佇列生成。
使用流程與操作體驗
前往 Animon 官方網站(animon.ai),可選擇語言介面如英文、日文、繁體中文等。
上傳靜止圖片作為動畫素材來源。
輸入簡單指令描述想要的動作(如「角色轉頭」或「風輕吹頭髮」)。
系統約 3–4 分鐘快速生成一段動畫。相當適合創作短影片、VTuber 預覽或社群分享。
測試心得與注意事項
優點 :
操作介面乾淨、上手容易,無需技術背景即可使用。
真正支援無限生成,非常難得。
動畫表現自然,能感受到「動漫質感」的細膩動態。
限制 :
免費影片解析度較低(480p)且有浮水印。
背景角色或細節動作偶爾無法同步動態,僅前景主角有移動。
尚無聲音、配樂或音效整合功能,僅供純畫面動畫。
參考資料
VIDEO
by Rain Chu | 9 月 2, 2025 | AI , 圖型處理 , 模型
你是否曾想把自己的照片變成桌上擺放的公仔模型?現在可以透過 Google 最新的 Nano Banana 模型(亦稱 Gemini 2.5 Flash Image)!你只需在 Google AI Studio 或 Gemini App 上上傳人像照片,就能透過文字描述,生成一張效果逼真的「真人公仔照」,免費、免 VPN,簡單又好玩!
快速上手教學(適用 AI Studio 或 Gemini App)
前往 Google AI Studio 或使用 Gemini App 。
選擇模型為 Gemini 2.5 Flash Image(Nano Banana) 。
上傳你的照片(建議用正面自拍)。
輸入以下 prompt:
A hyper-realistic 1/7 scale figurine of a character, designed as a finished commercial product, placed on an iMac computer desk with a white Apple keyboard. The figurine stands on a clean, round transparent acrylic base with no labels or text. Professional studio lighting highlights the sculpted details. On the iMac screen in the background, display the ongoing ZBrush modeling process of the same figurine, showing the contrast between “work in progress” and the finished product. Next to the figurine, place its packaging box with rounded corners and a transparent front window. The box is open at the top, revealing only the inner transparent plastic clamshell, and its height is slightly taller than the figure, realistically sized to contain it.
約莫 10 至 12 秒後,Nano Banana 將生成一張高質感的“公仔照”。
若不滿意,可繼續輸入新的指令,進行多回合優化。
除了用 Gemini, Google AI Studio 之外,也有一個很親民的工具可以使用,Google Whisk 是 Google Labs 推出的一款 AI 圖像生成實驗工具,它的核心理念是「用影像提示取代文字提示」,讓創作過程更直觀、有趣又快速 。
使用方式總覽:
使用者可以上傳或拖曳多張圖片,分別指定為 主體 (Subject) 、場景 (Scene) 與 風格 (Style) 。
Whisk 會透過 Gemini 多模態 AI 生成每張圖片的描述(把圖像翻譯成文字),再透過 Imagen 3 來自動生成最終的合成圖像 。
若使用者沒有圖片,也可以點擊類似骰子的按鈕,讓 Whisk 自動產生候選圖像作為創作起點。
最終生成的作品同時附上自動生成的文字提示,使用者可收藏(favorite)、下載或進入「refine」(精修)模式繼續調整。
功能特色與優勢
特性 說明 直觀的視覺提示流程 不需撰寫冗長文字,只要用圖像即可引導 AI 創作,降低入門門檻。 高度創意自由度 主體、場景、風格可任意混搭,產出意想不到的視覺效果。 可精調的 prompt Whisk 生成的文字提示可供修改,讓你能微調構圖或細節。 迅速生成,適合腦力激盪 非用於精細修圖,而是強調快速試想與探索多種視覺可能性。
背後技術架構
Whisk 的生成流程依靠兩大 Google 強力 AI 模型:
Gemini :將使用者上傳的圖片轉換成文字描述(Image → Text)。
Imagen 3 :根據 Gemini 輸出的描述,生成新圖像(Text → Image)。
這種「I2T 加 T2I」方式,讓工具更懂得捕捉「精髓」而非複製細節,有助於創造富有變化的視覺作品
應用場景與用戶心得
適用於:
創意構想 :設計師、行銷、插畫師與教育者都能用它腦爆想法,例如試出角色在不同情境下的樣貌。
教育工具 :老師可以讓學生用上傳的照片快速生成故事插圖或原型設計。
快速原型設計 :用於生成貼紙、胸章、絨毛玩偶等產品概念,效率高又富創意。
最新資訊與發展動向
Whisk 自 2024 年底正式推出以來,已從初期美國限定,擴展至全球超過百個國家使用。
隨著技術升級,Whisk 已經從最初的 Imagen 3 模型,陸續升級到更新、更強的 Imagen 4,圖像品質更高。
雖然最近 Google 也廣為報導其視頻工具 Flow,但 Whisk 主要還是聚焦在圖像創作領域。
官網
https://aistudio.google.com/prompts/new_chat
https://gemini.google.com
參考資料
by Rain Chu | 8 月 30, 2025 | AI , 圖型處理 , 數據分析
LaneSOD 是一套基於 InSPyReNet (逆向顯著性金字塔重建網路)而延伸出的開源模型,專門針對車道線分割(Lane Segmentation),應用於駕駛場景的 AI 視覺處理中。透過強大的顯著性檢測技術,LaneSOD 能精準辨識道路上的車道線,具備高準確度與可用性。
一、什麼是 LaneSOD?
核心技術 :LaneSOD 架構於 InSPyReNet,後者是一種高解析度顯著性物件偵測模型,於 ACCV 2022 上提出,專門處理高解析度圖片的顯著性檢測,使用金字塔結構融合多階層特徵提高精度。
執行場景 :LaneSOD 適用於駕駛視角的車道識別,尤其在多車道或複雜光線下仍能穩定運作,是自駕輔助或智慧交通系統的理想工具。
二、快速上手:使用 LaneSOD 的流程概覽
以下以 Python + PyTorch 環境為基礎,簡述流程步驟:
安裝依賴與下載模型:
git clone https://github.com/plemeri/LaneSOD.git
cd LaneSOD
pip install -r requirements.txt
資料準備與推論:
from lanesod import LaneSODModel
model = LaneSODModel(pretrained=True)
# 載入測試影像
img = load_image("road_scene.jpg")
mask = model.predict(img)
save_image_mask("road_scene_mask.png", mask)
mask
是二值化輸出,車道線處為前景。
可進行後處理(edge filtering)提升視覺辨識效果。
三、LaneSOD 的特色亮點
高解析度精準分割 :繼承 InSPyReNet 的頂尖顯著性分析能力,即使複雜場景仍保持高精度。
簡易套件整合 :支援 CLI 和 Python API,開發者可快速整合至專案。
應用靈活性高 :適用於單張圖片、影片逐幀處理或即時影像分析。
MIT 開源授權 :自由使用並可擴展至商業應用。
四、實戰建議
強調後處理 :可搭配 OpenCV 做 morphological operations(如 dilation, erosion)強化車道線連貫性。
影片整合 :巡迴處理影片每幀、並套用 temporal smoothing,可提升邊界一致性與視覺效果。
多元測試場景 :建議在白天、夜晚、陰影等多樣環境下測試模型穩定性。
原始資料
https://github.com/plemeri/LaneSOD
by Rain Chu | 8 月 29, 2025 | AI , 圖型處理 , 影片製作
如何輕鬆地運用 AI 技術,讓影片或直播畫面擁有透明背景 ,無需繁鎖編輯與圖層操作!今天分享的工具是使用 InSPyReNet 提供的開源套件
工具簡介:什麼是 transparent-background[webcam]
?
核心技術 :基於 InSPyReNet(ACCV 2022)所提出的 AI 去背演算法,支援圖片、影片甚至 webcam 的背景移除功能 。
Python 套件 :名稱為 transparent-background
,採 MIT 授權,可自由商業使用。
強大特色 :
支援多種輸出模式:如 RGBA(透明背景)、saliency map、綠幕、背景模糊、overlay 等。
支援 webcam 輸入,但 Linux 上需安裝 v4l2loopback
才能建立虛擬攝影機
安裝與依賴設定(含 webcam 支援)
安裝套件 :
pip install transparent-background[webcam]
若使用 Linux,請安裝 webcam relay :
git clone https://github.com/umlaeute/v4l2loopback.git && cd v4l2loopback
make && sudo make install
sudo depmod -a
sudo modprobe v4l2loopback devices=1
CLI 快速範例
transparent-background --source 0 --dest output_folder --type rgba
參數說明:
--source 0
表示 webcam 輸入(一般第一支 webcam 為 0)。
--type rgba
代表輸出為帶 alpha 通道的透明背景影像。 可依需求更換為 map
、green
、blur
、overlay
或指定背景圖
用於單一影片檔案
Python API 範例:
讀取 webcam 並顯示去背畫面
import cv2
from transparent_background import Remover
remover = Remover()
cap = cv2.VideoCapture(0) # 開啟預設 webcam
while True:
ret, frame = cap.read()
if not ret:
break
# 處理去背結果(RGBA)
out = remover.process(frame, type="rgba")
cv2.imshow("Transparent Webcam", out)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
cap.release()
cv2.destroyAllWindows()
📖 transparent-background
參數說明
--source [SOURCE]
(必填)
指定輸入的資料來源,可以是:
單張圖片 :例如 image.png
圖片資料夾 :例如 path/to/img/folder
單個影片檔 :例如 video.mp4
影片資料夾 :例如 path/to/vid/folder
整數 :用於指定 webcam 地址,例如 0
(對應 /dev/video0
的攝影機)
--dest [DEST]
(可選)
輸出結果存放的資料夾,若未指定,則預設為當前工作目錄 。
--threshold [THRESHOLD]
(可選)
設定硬性去背的閾值,範圍為 0.0 ~ 1.0 。
不建議與 soft prediction 同時使用 ,若未設定,系統會使用「軟性預測」來生成更自然的透明效果。
--type [TYPE]
(可選)
選擇輸出的背景類型,預設為 rgba
:
rgba :輸出帶透明通道的影像(alpha map),若未設定 threshold,會自動透過 pymatting
進行前景提取。⚠️ 此模式不適用於影片或 webcam 。
map :輸出純粹的 saliency map(灰階遮罩)。
green :將背景換成綠幕。
white :將背景換成純白色(由 [carpedm20] 貢獻)。
‘[255, 0, 0]’ :使用指定的 RGB 顏色作為背景(需加單引號)。
blur :將背景模糊處理。
overlay :以半透明綠色覆蓋前景並突顯邊緣。
另一張圖片 :可指定圖片路徑(例如 samples/background.png
),前景會直接疊加在該背景上。
--ckpt [CKPT]
(可選)
使用其他模型檔(checkpoint)。
--mode [MODE]
(可選)
指定運行模式:
base :標準模式。
base-nightly :使用 nightly release 版本的 checkpoint。
fast :快速模式,速度快但可能在細節上略有損失。
其他選項
--resize [RESIZE]
(可選):
static
(預設):輸出尺寸固定。
dynamic
:生成更清晰的邊緣,但可能不穩定。
--format [FORMAT]
(可選):輸出格式,若未指定,會與輸入格式相同。
--reverse
(可選):反轉去背結果,將前景移除 、保留背景(官方玩笑稱為「transparent-foreground」模式 😆)。
--jit
(可選):啟用 TorchScript 模式,會先透過 PyTorch JIT 編譯器追蹤模型,初始化較慢,但推論速度更快且記憶體佔用更低。
範例
單張圖片去背 (輸出透明 PNG):
transparent-background --source input.png --dest output --type rgba
處理整個資料夾的圖片,並輸出模糊背景效果 :
transparent-background --source ./images --dest ./results --type blur
即時 webcam 去背 (Linux 需安裝 v4l2loopback
):
transparent-background --source 0 --dest ./webcam_output --type green
更換背景為自訂圖片 :
transparent-background --source video.mp4 --dest ./output --type 'backgrounds/bg.png'
GUI 模式
安裝 GUI 支援
pip install --extra-index-url https://download.pytorch.org/whl/cu118 transparent-background[gui] # with gui dependency (flet)
開啟 GUI
transparent-background-gui
官方教學
VIDEO
官方網頁
https://github.com/plemeri/transparent-background
採用的演算法
https://github.com/plemeri/InSPyReNet
開源的後製影片軟體
https://kdenlive.org
參考資料
近期留言