Select Page
不用雲端!免費語音克隆神器 VoxCPM|30種語言+方言,離線生成專業播音聲音

不用雲端!免費語音克隆神器 VoxCPM|30種語言+方言,離線生成專業播音聲音

🧠 什麼是 VoxCPM?

VoxCPM 是由 OpenBMB 推出的新一代語音生成模型,主打:

👉 超低樣本聲音克隆(只需5秒)
👉 完全本地運行(無需雲端)
👉 多語言+多方言支持(30+)

簡單講一句話:

👉 它就是「語音界的 Stable Diffusion」


🚀 核心特色

🎙️ 1️⃣ 極致聲音複製(5秒搞定)

只需要一段短短語音(約5秒):

  • 可複製音色
  • 模擬說話風格
  • 保留情緒與語氣

👉 幾乎達到「真人等級」


🎚️ 2️⃣ 專業播音員等級輸出

生成語音具備:

  • 清晰度高(接近錄音室品質)
  • 節奏自然
  • 可長文本生成(Podcast / 有聲書)

👉 可直接商用(需注意授權)


🌏 3️⃣ 多語言+方言(重點)

支援:

  • 中文(普通話)
  • 台語(閩南語)
  • 廣東話
  • 四川話
  • 英文 / 日文 / 韓文 等

👉 這點直接屌打很多 TTS 工具


🔒 4️⃣ 完全本地運行

不像:

  • ElevenLabs(雲端)
  • PlayHT(雲端)

VoxCPM:

✅ 無需上傳聲音
✅ 不怕資料外洩
✅ 無 API 費用

⚙️ 安裝教學(本地部署)

📦 硬體需求(建議)

  • GPU:RTX 3060 以上(最佳)
  • RAM:16GB+
  • OS:Ubuntu / Windows(WSL)

🧩 Step 1:下載專案

官方 Repo👇
👉 VoxCPM GitHub repository


🧩 Step 2:安裝環境


🧩 Step 3:下載模型

依照 repo 指示下載:

  • 主模型(Urv5)
  • 聲音模型

🧩 Step 4:執行推理


🧩 Step 5:使用WEBUI

# WebUI 
python lora_ft_webui.py   # http://localhost:7860

🧠 進階玩法(你可以做什麼)

💰 商業應用

  • AI 配音 SaaS
  • 有聲書生成平台
  • YouTube 自動旁白

🧪 高階玩法

  • 聲音角色庫(多人 voice profile)
  • Telegram 語音 Bot
  • 客製客服語音

⚠️ 注意事項(很重要)

⚙️ 技術限制

  • 中文效果最佳
  • 部分方言仍在優化
  • GPU 需求較高

🆚 VoxCPM vs 其他 TTS

工具本地聲音克隆方言成本
VoxCPM免費
ElevenLabs普通$$$
PlayHT普通$$$

👉 結論:
本地部署 = VoxCPM 完勝

參考資料

官方網站

移除背景聲音工具(UVR5)

MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色:

  • 多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
  • 高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
  • 同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。

適用場景:

  • 影片配音: 自動為無聲影片生成對應的音訊,提升影片的可觀賞性。
  • 虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
  • 多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。

技術原理:

MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。

使用方法:

MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。

已知限制:

目前,MMAudio 存在以下限制:

  • 有時會生成不清晰的語音或背景音樂。
  • 對某些陌生概念的處理不夠理想。

相關資源: