文字轉語音彙整

免費文字轉語音工具推薦：Speech Synthesis 支援 40 種語言與多樣語音選擇

by Rain Chu | 5 月 12, 2025 | AI, 語音合成

Speech Synthesis 是一款免費的線上文字轉語音工具，支援超過 40 種語言和數百種語音選擇，並可自訂語調(SSML)、節奏與語氣，讓語音更貼近您的需求。

🔑 主要特色

多語言支援：涵蓋繁體中文、粵語、英語、日語等多種語言，滿足全球用戶的需求。
多樣化語音選擇：提供數百種語音，包括不同性別、年齡和口音的選項。
自訂語音參數：可調整語速（如 x-slow、slow、medium、fast、x-fast）、語調和音量，打造個性化的語音輸出。
支援 SSML：支援語音合成標記語言（SSML），讓進階用戶能夠更精細地控制語音輸出。
多種音訊格式：可選擇 MP3、WAV 等格式，並提供不同的音質設定，如 16kHz-128k、24kHz-160k、48kHz-192k。

🧪 使用方式

前往 Speech Synthesis 官方網站。
在「TEXT」欄位輸入您要轉換的文字，或上傳文件。
選擇語言和語音，並調整語速、語調和音量等參數。
點擊「合成語音」按鈕，系統將生成語音檔案。
試聽並下載生成的語音檔案。

🔍 與其他熱門 TTS 工具的比較

工具名稱	語言支援數	語音選擇數	自訂參數	支援 SSML	價格
Speech Synthesis	40+	數百種	✅	✅	免費
TTSMaker	100+	600+	✅	✅	免費
Google Text-to-Speech	30+	220+	✅	✅	免費（有使用限制）
MyEdit	26+	多種	✅	❌	免費

參考資料

Youtube 電影十分鐘解說的 AI 語音合成

ChatTTS-完整使用指南

by Rain Chu | 9 月 2, 2024 | AI, 語音合成

免費且超強大的 AI TTS，文字轉語音模型+工具，有許多語氣的控制，也可以很精準的寫程式控制效果，是RD眼中好用的Local端開源的TTS

特色說明

1.大規模的數據：10萬小時的訓練資料，現在開源的是4小時的版本

2.專用設計：專門對於對話情境、視頻介紹的情境所設計的模型

3.開源特性：可以很簡單的整合到你的WEB中

4.支持語氣：oral, laugh, break

安裝前準備

python 3.10

CUDA

GIT

gradio

安裝說明

github 複製

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安裝依賴

pip install --upgrade -r requirements.txt

執行 webui

python examples/web/webui.py

利用 CLI

python examples/cmd/run.py "Your text 1." "Your text 2."

要整合在 python 程式碼中，可以安裝 PyPI

pip install ChatTTS
pip install git+https://github.com/2noise/ChatTTS
pip install -e .

整合程式碼

###################################
# Sample a speaker from Gaussian.

rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recovery

params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb = rand_spk, # add sampled speaker 
    temperature = .3,   # using custom temperature
    top_P = 0.7,        # top P decode
    top_K = 20,         # top K decode
)

###################################
# For sentence level manual control.

# use oral_(0-9), laugh_(0-2), break_(0-7) 
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

wavs = chat.infer(
    texts,
    params_refine_text=params_refine_text,
    params_infer_code=params_infer_code,
)

###################################
# For word level manual control.

text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text,  params_infer_code=params_infer_code)
"""
In some versions of torchaudio, the first line works but in other versions, so does the second line.
"""
try:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]).unsqueeze(0), 24000)
except:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]), 24000)