Select Page
免費文字轉語音工具推薦:Speech Synthesis 支援 40 種語言與多樣語音選擇

免費文字轉語音工具推薦:Speech Synthesis 支援 40 種語言與多樣語音選擇

Views: 1

Speech Synthesis 是一款免費的線上文字轉語音工具,支援超過 40 種語言和數百種語音選擇,並可自訂語調(SSML)、節奏與語氣,讓語音更貼近您的需求。

🔑 主要特色

  • 多語言支援:涵蓋繁體中文、粵語、英語、日語等多種語言,滿足全球用戶的需求。
  • 多樣化語音選擇:提供數百種語音,包括不同性別、年齡和口音的選項。
  • 自訂語音參數:可調整語速(如 x-slow、slow、medium、fast、x-fast)、語調和音量,打造個性化的語音輸出。
  • 支援 SSML:支援語音合成標記語言(SSML),讓進階用戶能夠更精細地控制語音輸出。
  • 多種音訊格式:可選擇 MP3、WAV 等格式,並提供不同的音質設定,如 16kHz-128k、24kHz-160k、48kHz-192k。

🧪 使用方式

  1. 前往 Speech Synthesis 官方網站
  2. 在「TEXT」欄位輸入您要轉換的文字,或上傳文件。
  3. 選擇語言和語音,並調整語速、語調和音量等參數。
  4. 點擊「合成語音」按鈕,系統將生成語音檔案。
  5. 試聽並下載生成的語音檔案。

🔍 與其他熱門 TTS 工具的比較

工具名稱語言支援數語音選擇數自訂參數支援 SSML價格
Speech Synthesis40+數百種免費
TTSMaker100+600+免費
Google Text-to-Speech30+220+免費(有使用限制)
MyEdit26+多種免費

參考資料

MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio:自動為影片生成同步音訊的開源解決方案

Views: 55

MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色:

  • 多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
  • 高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
  • 同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。

適用場景:

  • 影片配音: 自動為無聲影片生成對應的音訊,提升影片的可觀賞性。
  • 虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
  • 多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。

技術原理:

MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。

使用方法:

MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。

已知限制:

目前,MMAudio 存在以下限制:

  • 有時會生成不清晰的語音或背景音樂。
  • 對某些陌生概念的處理不夠理想。

相關資源:

增強式 ChatTTS 跟 Ollama 的整合

Views: 139

可以中英文混合,笑聲,停頓的好用的語音生成模型

直接使用 ChatTTS

ChatTTS online DEMO https://chattts.com/#Demo

增強後好看又好用的 ChatTTS 外框 ChatTTS-Forge https://huggingface.co/spaces/lenML/ChatTTS-Forge

自行開發程式的重要資源

ChatTTS 官方說明 https://github.com/2noise/ChatTTS/blob/main/docs/cn/README.md

整合各種超強的 ChatTTS應用 https://github.com/libukai/Awesome-ChatTTS

ChatTTS 跟 Ollama 的整合 Demo https://github.com/melodylife/ollama-chat

延伸閱讀

ChatTTS-完整使用指南

ChatTTS-完整使用指南

Views: 487

免費且超強大的 AI TTS,文字轉語音模型+工具,有許多語氣的控制,也可以很精準的寫程式控制效果,是RD眼中好用的Local端開源的TTS

特色說明

1.大規模的數據:10萬小時的訓練資料,現在開源的是4小時的版本

2.專用設計:專門對於對話情境、視頻介紹的情境所設計的模型

3.開源特性:可以很簡單的整合到你的WEB中

4.支持語氣:oral, laugh, break

安裝前準備

python 3.10

CUDA

GIT

gradio

安裝說明

github 複製

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安裝依賴

pip install --upgrade -r requirements.txt

執行 webui

python examples/web/webui.py

利用 CLI

python examples/cmd/run.py "Your text 1." "Your text 2."

要整合在 python 程式碼中,可以安裝 PyPI

pip install ChatTTS
pip install git+https://github.com/2noise/ChatTTS
pip install -e .

整合程式碼

###################################
# Sample a speaker from Gaussian.

rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recovery

params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb = rand_spk, # add sampled speaker 
    temperature = .3,   # using custom temperature
    top_P = 0.7,        # top P decode
    top_K = 20,         # top K decode
)

###################################
# For sentence level manual control.

# use oral_(0-9), laugh_(0-2), break_(0-7) 
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

wavs = chat.infer(
    texts,
    params_refine_text=params_refine_text,
    params_infer_code=params_infer_code,
)

###################################
# For word level manual control.

text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text,  params_infer_code=params_infer_code)
"""
In some versions of torchaudio, the first line works but in other versions, so does the second line.
"""
try:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]).unsqueeze(0), 24000)
except:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]), 24000)

V3版本

音色庫

https://www.modelscope.cn/studios/ttwwwaa/chattts_speaker

注意事項

1.是否要使用CUDA,需要的話,記得安裝依賴

2.要用CUDA,怎選擇 Linux 平台,相容性比較好

3.Python最好用3.10版本,並且用conda

直接使用

https://chattts.com

colab

modalScope

參考資源

ChatTTS Github

ChatTTS官網

Chat TTS UI

Chat TTS 翻譯

MediaFire一件安裝包

Lobe Chat UI-有plugin,多模態的AI CHAT UI – 雨 (rain.tips)

AI Tools – AI工具大全(總整理) – 雨 (rain.tips)

搭配 Free AI 產圖Flux

Hallo AI:讓照片動起來,結合語音技術的革命性數字人類

Hallo AI:讓照片動起來,結合語音技術的革命性數字人類

Views: 119


Fusion Lab 又有新款力作,Hallo AI 可以讓用戶僅需提供一張照片和一段語音,就能讓照片中的人物進行說話、唱歌甚至進行動作,為數字內容創作帶來了革命性的突破。

hallo framework

主要功能介紹:

  • 語音動畫同步:用戶只需上傳一張照片及一段WAV格式的英語語音,Hallo AI就能使照片中的人物按語音內容進行動作,包括說話和唱歌。
  • 動作自然流暢:結合精確的面部識別和動作捕捉技術,保證人物動作的自然流暢,令人印象深刻。

技術框架:

  • 音頻處理:使用Kim_Vocal_2 MDX-Net的vocal removal模型分離語音。
  • 面部分析:透過insightface進行2D和3D的臉部分析。
  • 面部標記:利用mediapipe的面部檢測和mesh模型進行精確標記。
  • 動作模組:AnimateDiff的動作模組為動作生成提供支持。
  • 影像生成:StableDiffusion V1.5和sd-vae-ft-mse模型協同工作,用於生成和調整圖像細節。
  • 聲音向量化:Facebook的wav2vec模型將WAV音頻轉換為向量數據。

安裝方法

盡量採用 Linux 平台,我這邊測試成功的有 Ubuntu 20 WSL 版本,就可以簡單三個步驟,部過前提要記得先安裝好 WSL CUDA 支援

1.建立虛擬環境

  conda create -n hallo python=3.10
  conda activate hallo

2.安裝相關的依賴

  pip install -r requirements.txt
  pip install .

3.要有 ffmpeg 支援

  apt-get install ffmpeg

4.測試與驗證

python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav

最近更新:

  • 在🤗Huggingface空間克隆了一個Gradio演示。
  • 新增Windows版本、ComfyUI界面、WebUI和Docker模板。

參考資料

Hallo GitHub

Hallo Model

大神開發的Windows介面

Hallo 線上版本

Hallo Docker版

影片跳舞合成

逼真的虛擬存在:專注在企業應用的Hour One AI如何創造數字人物

逼真的虛擬存在:專注在企業應用的Hour One AI如何創造數字人物

Views: 0

Hour One AI 是一家專注於人工智能技術的創新公司,其技術主要應用於生成逼真的虛擬人物和語音合成領域。這家公司利用最新的AI和機器學習技術,創造出可以在各種數字媒體和虛擬環境中自然互動的虛擬角色。Hour One AI的技術不僅僅是將數字人物作為娛樂或遊戲的一部分,而是旨在於教育、培訓、新聞報導、客戶服務以及其他需要人機互動的領域中發揮作用。

技術創新

Hour One AI 的一大創新是其能夠創建出與真人幾乎無法區分的虛擬角色。這些角色不僅外觀逼真,還能夠模仿人類的語音、語調和面部表情。公司使用先進的深度學習技術,通過分析大量的人類語音和面部表情數據,來訓練其AI模型,從而生成自然流暢且富有表情的虛擬角色。

應用場景

Hour One AI 的技術在多個領域中都有廣泛的應用前景:

  1. 教育和培訓:通過創建虛擬教師和培訓師,提供更加個性化和互動的學習體驗。
  2. 新聞和報導:使用虛擬新聞主播來報導最新新聞,提供更加多樣化的報導角度和語言選擇。
  3. 客戶服務:創建虛擬客服代表,24小時提供服務,改善客戶體驗。
  4. 娛樂和社交媒體:為社交媒體和娛樂行業提供虛擬角色,創造新的互動方式。

企業級安全性、信任和服務

在追求技術創新的同時,Hour One AI深知企業級安全性、信任和服務的重要性。公司致力於達到AI安全和倫理的最高標準,確保其技術的應用不僅高效而且安全可靠。

  1. 企業級安全:Hour One AI採用最先進的安全技術和協議,保護用戶數據免受未經授權的訪問和濫用。從數據加密到嚴格的訪問控制,Hour One AI確保所有虛擬角色的創建和使用過程都遵循最嚴格的安全標準。
  2. 信任和透明度:Hour One AI在其所有操作中強調信任和透明度。公司不僅公開其AI模型的工作原理,還積極參與公開討論,關於AI倫理和負責任地使用AI技術的重要性。這種開放性賦予了用戶對Hour One AI技術的信任,同時鼓勵了對AI應用倫理問題的持續探討。
  3. 客戶服務:Hour One AI提供卓越的客戶服務,確保用戶能夠最大限度地利用其技術。從技術支持到定制開發,Hour One AI與客戶緊密合作,以滿足其獨特需求,推動其業務發展。