by Rain Chu | 4 月 18, 2026 | AI, 語音合成
🧠 什麼是 VoxCPM?
VoxCPM 是由 OpenBMB 推出的新一代語音生成模型,主打:
👉 超低樣本聲音克隆(只需5秒)
👉 完全本地運行(無需雲端)
👉 多語言+多方言支持(30+)
簡單講一句話:
👉 它就是「語音界的 Stable Diffusion」
🚀 核心特色
🎙️ 1️⃣ 極致聲音複製(5秒搞定)
只需要一段短短語音(約5秒):
👉 幾乎達到「真人等級」
🎚️ 2️⃣ 專業播音員等級輸出
生成語音具備:
- 清晰度高(接近錄音室品質)
- 節奏自然
- 可長文本生成(Podcast / 有聲書)
👉 可直接商用(需注意授權)
🌏 3️⃣ 多語言+方言(重點)
支援:
- 中文(普通話)
- 台語(閩南語)
- 廣東話
- 四川話
- 英文 / 日文 / 韓文 等
👉 這點直接屌打很多 TTS 工具
🔒 4️⃣ 完全本地運行
不像:
- ElevenLabs(雲端)
- PlayHT(雲端)
VoxCPM:
✅ 無需上傳聲音
✅ 不怕資料外洩
✅ 無 API 費用
⚙️ 安裝教學(本地部署)
📦 硬體需求(建議)
- GPU:RTX 3060 以上(最佳)
- RAM:16GB+
- OS:Ubuntu / Windows(WSL)
🧩 Step 1:下載專案
官方 Repo👇
👉 VoxCPM GitHub repository
🧩 Step 2:安裝環境
🧩 Step 3:下載模型
依照 repo 指示下載:
🧩 Step 4:執行推理
🧩 Step 5:使用WEBUI
# WebUI
python lora_ft_webui.py # http://localhost:7860
🧠 進階玩法(你可以做什麼)
💰 商業應用
- AI 配音 SaaS
- 有聲書生成平台
- YouTube 自動旁白
🧪 高階玩法
- 聲音角色庫(多人 voice profile)
- Telegram 語音 Bot
- 客製客服語音
⚠️ 注意事項(很重要)
⚙️ 技術限制
🆚 VoxCPM vs 其他 TTS
| 工具 | 本地 | 聲音克隆 | 方言 | 成本 |
|---|
| VoxCPM | ✅ | ✅ | ✅ | 免費 |
| ElevenLabs | ❌ | ✅ | 普通 | $$$ |
| PlayHT | ❌ | ✅ | 普通 | $$$ |
👉 結論:
本地部署 = VoxCPM 完勝
參考資料
官方網站
移除背景聲音工具(UVR5)
by Rain Chu | 4 月 18, 2026 | AI, Hermes
🧠 Hermes Agent 是什麼?
Hermes Agent 是由 Nous Research 推出的開源 AI Agent 框架,具備:
- 🔁 跨對話記憶(Memory)
- 🧠 技能(Skill)可持續累積
- 🌐 內建網頁瀏覽與工具調用
- ⏱️ 任務排程(Cron-like)
- 🔌 OpenAI 相容 API(可接各種 LLM)
👉 本質上,它不是單純聊天機器人,而是「可執行任務的 AI 系統」
🖥️ Hermes WebUI(Dashboard)帶來什麼改變?
1️⃣ 從 CLI → GUI 的巨大轉變
過去:
- OpenClaw / Agent 系統 → CLI + config + prompt
現在:
- Hermes WebUI → 點擊操作 + 視覺化管理
👉 這是 AI Agent 商業化的關鍵一步
2️⃣ 多 Agent 管理(未來 SaaS 核心)
透過 WebUI,可以:
- 管理多個 Agent
- 設定不同任務流程
- 控制記憶與技能
👉 這意味著:
👉 你可以做「多人 AI 平台」
3️⃣ 技能(Skill)可視化
Hermes 最大亮點:
任務會被記錄成「技能」,並可重複使用
例如:
👉 這其實就是:
👉 AI workflow engine(未來企業標準)
Hermes 實作
先更新到最新版本
然後就可以直接啟用 hermes webui
之後就可以用瀏覽器使用,預設是 http://localhost:9119/
🔍 Hermes WebUI 深度觀察(關鍵洞察)
💡 與 Open WebUI 深度整合
在社群中有人指出:
Hermes 可以當成「有狀態的 LLM endpoint」
意思是:
- WebUI(前端)
- Hermes(Agent)
- LLM(模型)
👉 三層架構:
User → WebUI → Hermes Agent → LL
「Hermes 開箱就像調教一週的 OpenClaw」
官方資訊
https://docs.openwebui.com/getting-started/quick-start/connect-an-agent/hermes-agent
第三方套件
https://github.com/nesquena/hermes-webui
by Rain Chu | 4 月 15, 2026 | AI, claude, 模型
從 MCP failed 到 connected,一步步解決 Windows 上的 Channels 整合問題
April 2026·Claude Code v2.1.109·適用平台:Windows
目錄
- 前言:Claude Code Channels 是什麼
- 前置需求 claude.ai 登入、Bot 設定
- 安裝與啟動 plugin install、–channels 旗標
- 常見錯誤與解法 Auth 衝突、MCP failed、Bun
- 確認成功運作
- 已知限制與現況
前言:Claude Code Channels 是什麼
Claude Code Channels 是 Anthropic 在 2026 年 3 月推出的實驗性功能,讓你可以透過 Telegram(或 Discord)把訊息推送進正在執行的 Claude Code session。
實際的應用場景:你在外出時用手機傳一句「跑一下測試,告訴我有沒有失敗」,你的電腦上的 Claude Code 就會收到、執行,然後把結果回傳到 Telegram。
注意Channels 目前仍是 Research Preview(實驗性功能),Windows 上有已知的穩定性問題。本文記錄的是截至 v2.1.109 的實際狀況。
前置需求
- Claude Code 已安裝且版本 ≥ v2.1.109
用 npm update -g @anthropic-ai/claude-code 更新
- 使用 claude.ai 帳號登入(Pro 或 Max)
Channels 不支援純 API Key 認證,必須用 claude.ai 帳號
- 在 Telegram 建立 Bot(透過 @BotFather)
取得形如 123456789:AAHfiqks... 的 Bot Token
- 安裝 Bun 執行環境(Windows 必須)
Telegram plugin 使用 Bun 執行,這是最常被忽略的步驟
安裝 Bun(Windows 必做)
這是 Windows 上最容易卡關的地方。Telegram plugin 的 MCP server 以 Bun 執行,沒有 Bun 就會直接顯示 MCP · ✗ failed。
在 PowerShell 中執行:
powershell -c "irm bun.sh/install.ps1 | iex"
安裝完後關閉並重新開啟 PowerShell(讓 PATH 生效),確認安裝成功:
bun --version
# 應該輸出版本號,例如:1.x.x
解決 Auth 衝突
若啟動時看到這個警告:
⚠ Auth conflict: Both a token (claude.ai) and an API key
(/login managed key) are set.
這代表同時存在兩種認證方式。Channels 功能只支援 claude.ai 登入,需要清除衝突:
登出後重新用 claude.ai 帳號登入,確認登入後只有一種認證方式存在。
安裝與設定 Telegram Plugin
啟動 Claude Code,在對話中執行以下指令:
/plugin install telegram@claude-plugins-official
安裝完成後設定 Bot Token:
/telegram:configure <你的 Bot Token>
設定存取權限(建議啟動後先用 pairing 模式,再切換成 allowlist):
啟動 Channels
claude --channels plugin:telegram@claude-plugins-official
啟動後會看到:
Listening for channel messages from: plugin:telegram@claude-plugins-official
Experimental · inbound messages will be pushed into this session
驗證是否成功
在 Claude Code 裡執行 /plugin list,確認顯示:
telegram Plugin · claude-plugins-official · ✔ enabled
└ telegram MCP · ✔ connected ← 這行是關鍵!
成功標誌看到 telegram MCP · ✔ connected 就代表設定完成,可以去 Telegram 傳訊息測試了。
常見錯誤排查
telegram MCP · ✗ failed
原因:Bun 未安裝或不在 PATH 中。
解法:安裝 Bun(irm bun.sh/install.ps1 | iex),重新開啟 PowerShell 後再試。
Auth conflict 警告
原因:同時存在 claude.ai token 和 API key。
解法:執行 claude /logout 清除衝突,選擇一種登入方式。Channels 需要 claude.ai 登入。
傳訊息沒有回應(MCP 顯示 connected)
原因:你的 Telegram 使用者 ID 不在 allowlist,或是 pairing 尚未完成。
解法:執行 /telegram:access 確認存取設定,或重新執行 pairing 流程。
已知限制(截至 v2.1.109)
這個功能仍在快速迭代,以下是目前的已知狀況:
- Channels 只在 session 開啟時運作,關掉 Claude Code 就收不到訊息
- 如需長時間監聽,建議搭配
tmux 或讓終端機持續開著
- Windows 上的穩定性比 macOS/Linux 差,偶爾需要重啟
- 目前是 Research Preview,API 隨時可能變更
參考資訊
https://code.claude.com/docs/zh-TW/channels
第三方 telegram
by Rain Chu | 4 月 15, 2026 | 未分類
🌍 Google Nano Banana 18 招實戰玩法
1️⃣ 環遊世界攝影(不用出國)
把人物丟進巴黎、東京、冰島
👉 一秒生成環遊世界照片
2️⃣ 多主體合成(超強合成能力)
3️⃣ 首尾幀影片生成
只給「開始 + 結束」
👉 AI 自動補動畫
4️⃣ 無限 P 圖(換臉+換裝+換場景)
👉 一張圖變 100 張
5️⃣ 電商產品圖(Home Canvas)
👉 白底 → 高質感品牌圖
👉 自動生成情境照
6️⃣ 火柴人 → 動漫影片
草圖 → 完整動畫
👉 創作者神器
7️⃣ 地圖視覺推理
AI 看地圖 → 推理現場畫面
👉 視覺理解超強
8️⃣ 遊戲人物設計
👉 RPG / 科幻 / 二次元
一鍵出角色
9️⃣ 海報設計置換
👉 改人物 / 改產品 / 改標題
不用設計師也能做廣告
🔟 真實手辦生成
👉 角色 → 手辦展示圖
可直接拿去開模設計
1️⃣1️⃣ AI 影片生成
👉 靜態圖 → 動態影片
內容創作革命
1️⃣2️⃣ 虛擬形象設計
👉 打造你自己的 AI 分身
1️⃣3️⃣ LINE 貼圖設計
👉 一鍵生成貼圖包
直接上架
1️⃣4️⃣ 食物美化(美食攝影)
👉 讓普通食物變米其林等級
1️⃣5️⃣ 食物拆解(視覺推理)
👉 漢堡 → 分解食材
👉 教學 / 廣告超好用
1️⃣6️⃣ 一張圖說故事
👉 一張圖就能講完整故事
1️⃣7️⃣ 視角轉換(鏡頭改變)
👉 正面 → 空拍 / 側拍
完全重建畫面
1️⃣8️⃣ AI 創意無限延伸
👉 所有創意都可以延伸
👉 沒有極限
🧩 核心能力總結
Nano Banana 的強大在於:
- 🧠 視覺理解(不是只生成)
- 🔄 可重組(多圖融合)
- 🎬 動態生成(圖片 → 影片)
- 🎨 風格自由轉換
👉 已經不是工具,而是「創作引擎」
🚀 適合誰用?
- 電商賣家(商品圖)
- 設計師(海報 / 品牌)
- 自媒體(短影片)
- 遊戲開發(角色設計)
- AI 創作者(虛擬人 / 貼圖)
🔗 官方入口
👉 Google AI Studio
直接體驗 Nano Banana
by Rain Chu | 4 月 14, 2026 | AI, google, 模型
在 AI 模型快速演進的時代,由 Google 推出的 Gemma 系列模型 一直備受關注,但對許多進階開發者來說,官方版本的限制(安全策略、回應過濾)往往成為發揮模型潛力的瓶頸,有了越獄版本,模型就再也不會回答你說「這個問題我不能回答了」。
這篇文章將帶你深入了解——
👉 越獄版本 Gemma 4(Gemma-4-31B-JANG_4M-CRACK)是什麼?
👉 它如何突破限制?是否值得使用?
👉 在本地 AI 架構(如 Ollama)中的實戰價值
🧠 什麼是 Gemma 4 越獄版?
所謂「越獄版」或「Crack 版」,指的是:
👉 移除或弱化模型原本的安全限制(alignment / guardrails)
這個版本來自 Hugging Face 上的開源模型:
👉 Hugging Face 社群釋出的
Gemma-4-31B-JANG_4M-CRACK
並可透過:
👉 Ollama 直接部署本地推論
⚙️ 越獄版 vs 官方版差異
| 項目 | 官方 Gemma 4 | 越獄版 Gemma 4 |
|---|
| 安全限制 | 高(嚴格過濾) | 低(大幅放寬) |
| 回答自由度 | 中 | 非常高 |
| 敏感內容處理 | 拒答或模糊 | 直接回答 |
| 適合用途 | 商業應用 | 研究 / 測試 / 私有 AI |
| 風險 | 低 | 高 |
💣 為什麼有人需要「越獄模型」?
對你這種在做 AI Agent / 本地 LLM 架構的人來說,關鍵原因只有一個:
👉「控制權」
1️⃣ 做 AI Agent(LangChain / AutoGen)
👉 尤其是:
🧪 越獄版的核心改動(技術面)
這類模型通常做了以下處理:
🔹 1. 去除 RLHF 對齊限制
🔹 2. 訓練資料調整(JANG_4M)
- 加入大量 unrestricted instruction data
- 強化「服從 prompt」能力
🔹 3. Prompt Injection 抗性降低
👉 反而變成「完全服從」
🚀 在 Ollama 中部署
你可以直接用:
ollama run SiliconBasedWorld/Gemma-4-31B-JANG_4M-CRACK
⚠️ 建議設定(for 128G)
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_FLASH_ATTENTION=1
Hermes Agent 完整實測:自我進化 AI Agent 架構,全面取代 OpenClaw! – 雨
近期留言