Select Page
ChatTTS-完整使用指南

ChatTTS-完整使用指南

Views: 430

免費且超強大的 AI TTS,文字轉語音模型+工具,有許多語氣的控制,也可以很精準的寫程式控制效果,是RD眼中好用的Local端開源的TTS

特色說明

1.大規模的數據:10萬小時的訓練資料,現在開源的是4小時的版本

2.專用設計:專門對於對話情境、視頻介紹的情境所設計的模型

3.開源特性:可以很簡單的整合到你的WEB中

4.支持語氣:oral, laugh, break

安裝前準備

python 3.10

CUDA

GIT

gradio

安裝說明

github 複製

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

安裝依賴

pip install --upgrade -r requirements.txt

執行 webui

python examples/web/webui.py

利用 CLI

python examples/cmd/run.py "Your text 1." "Your text 2."

要整合在 python 程式碼中,可以安裝 PyPI

pip install ChatTTS
pip install git+https://github.com/2noise/ChatTTS
pip install -e .

整合程式碼

###################################
# Sample a speaker from Gaussian.

rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recovery

params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb = rand_spk, # add sampled speaker 
    temperature = .3,   # using custom temperature
    top_P = 0.7,        # top P decode
    top_K = 20,         # top K decode
)

###################################
# For sentence level manual control.

# use oral_(0-9), laugh_(0-2), break_(0-7) 
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

wavs = chat.infer(
    texts,
    params_refine_text=params_refine_text,
    params_infer_code=params_infer_code,
)

###################################
# For word level manual control.

text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text,  params_infer_code=params_infer_code)
"""
In some versions of torchaudio, the first line works but in other versions, so does the second line.
"""
try:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]).unsqueeze(0), 24000)
except:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]), 24000)

V3版本

音色庫

https://www.modelscope.cn/studios/ttwwwaa/chattts_speaker

注意事項

1.是否要使用CUDA,需要的話,記得安裝依賴

2.要用CUDA,怎選擇 Linux 平台,相容性比較好

3.Python最好用3.10版本,並且用conda

直接使用

https://chattts.com

colab

modalScope

參考資源

ChatTTS Github

ChatTTS官網

Chat TTS UI

Chat TTS 翻譯

MediaFire一件安裝包

Lobe Chat UI-有plugin,多模態的AI CHAT UI – 雨 (rain.tips)

AI Tools – AI工具大全(總整理) – 雨 (rain.tips)

搭配 Free AI 產圖Flux

利用 Unique 3D 製作人物的 3D 模型

利用 Unique 3D 製作人物的 3D 模型

Views: 33

想要一鍵生成自己人頭的3D模型,已經有很多好用的工具,但這次所提供的 Unique3D 還是讓人驚艷,能夠從單一視角圖像高效地生成高品質的 3D 網格。這個框架使用了最新的生成保真度技術和強大的泛化能力。傳統的基於 Score Distillation Sampling(SDS)的方法能夠從大型 2D 擴散模型中提取 3D 知識來生成多樣化的 3D 結果,但這些方法通常需要長時間的個案優化,且結果常有不一致的問題。

最近的研究通過微調多視角擴散模型或訓練快速的前向模型來解決這一問題,生成了更好的 3D 結果。然而,這些方法在紋理和複雜幾何形狀的生成上仍存在不一致性和解析度限制。為了同時實現高保真度、一致性和效率,Unique3D 提出了一個包括多視角擴散模型和對應的標準擴散模型的框架,用於生成多視角圖像及其法線圖,並通過多級放大過程逐步提高生成的正交多視角圖像的解析度。

此外,Unique3D 還引入了一個稱為 ISOMER 的即時且一致的網格重建算法,該算法充分整合了顏色和幾何先驗知識到網格結果中,讓Unique3D 在幾何和紋理細節方面顯著優於其他圖像到 3D 的基線方法。

參考資料

利用 Blender 合成3D模型 – 雨 (rain.tips)

教學影片:AI能在2分钟就建成人像浮雕3D模型,简直太快了!赶快学起来 (youtube.com)

AiuniAI/Unique3D: Official implementation of Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image (github.com)

直接上傳圖片到 Unique3D – a Hugging Face Space by Wuvin 取得對應的3D模型

可以上傳網址的官網Aiuni

論文[2405.20343] Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image (arxiv.org)

加入Aiuni的 Discord 取的認證碼

利用 Blender 合成3D模型

Views: 16

在做產品的時候,常常會有需要將現在的3D模型融合在一個實際照片中,通常這張照片是一個實際的場景,當然現在多數人用AI的方法合成,但AI需要嘗試多次,並且不可控,真的要實現完美的場景還是需要3D繪圖軟體,如Blender的介入才行

  1. fSpy 找出透視圖的xyz
  2. 利用現有 HDRI 找出正確的環境光源
  3. 為了物體打上光源
  4. 設計出3D物件的地板反射和陰影
  5. 利用算圖以及合成的小技巧,算出完美的圖像

參考資料以及資源下載

fSpy

Poly Haven

HDRIs • Poly Haven

手把手教你如何用Blender合成3D模型與照片! (youtube.com)

Luxgen n7 語音指令大全

Views: 324

這裡整理了自己試過可以使用的語音指令,當然一定還有很多指令我沒試出來,有試過的可以分享給我,我也會陸續增刪

音樂相關

  • 播放藍芽音樂
  • 暫停音樂
  • 停止播放
  • 停掉音樂
  • 上一首歌
  • 下一首歌
  • 切換音樂來源成USB
  • 切換音樂來源
  • 打開廣播
  • 啟動廣播
  • 調到FM91.7
  • 上一個頻道
  • 上一個電台
  • 切換下一個電台
  • 播放下一個電台
  • 暫停收音機
  • 播放收音機
  • 把電台加入我的收藏
  • 把電台從我的收藏裡刪除
  • 從收藏中移除電台
  • 降低音量
  • 音量調高
  • 音量靜音
  • 取消靜音

導航指令

  • 開啟導航
  • 退出導航
  • 回到首頁
  • 回到主菜單

系統控制類型

  • 打開藍芽
  • 關閉藍芽
  • 增加螢幕亮度
  • 設定螢幕亮度為最高
  • 降低螢幕亮度
  • 開啟頭燈
  • 關上大燈
  • 打開360度攝像機
  • 關閉360度攝像頭

門窗控制

  • 打開窗戶
  • 窗戶開一半
  • 關閉窗戶
  • 車窗開四分之一
  • 開一點車窗
  • 解鎖車門
  • 解鎖後門
  • 鎖上車門
  • 鎖上後面的門

詢問資訊

  • 剩餘里程?
  • 電池還有多少電?
  • 胎壓是多少?
  • 我能開多遠?
  • 現在幾點?
  • 今天幾號?
  • 我的駕駛模式是?

通訊方法

  • 打電話
  • 我要打電話
  • 顯示通訊
  • 最近的通話紀錄

空調控制

  • 打開冷氣
  • 冷氣調到25度
  • 關閉冷氣
  • 加大冷氣的風量
  • 減少冷氣的風量
  • 冷氣風量設置為5

TURING 用 Stable Diffusion 畫 EV 概念車 – 雨 (rain.tips)

賽局理論-分餅邏輯

Views: 1

從前,有一個村莊裡住著兩位餅師傅,A師傅和B師傅。他們的手藝都十分高超,但各有所長。A師傅能夠獨自一人創造出1等分的餅,而B師傅則能夠獨自一人創造出2等分的餅。他們發現,如果合作,則能創造出9等分的餅。

Barry Nalebuff | Split The Pie: A Radical New Way to Negotiate | Talks at Google (youtube.com)

有一天,村長請他們來製作一個9等分的餅,並要求他們公平地分配這個餅。A師傅和B師傅開始思考,如何分配才是公平的。

首先,他們考慮各自的貢獻。A師傅獨自可以製作1等分的餅,而B師傅可以製作2等分的餅。這意味著,A師傅的能力是B師傅的1/2,B師傅的能力是A師傅的2倍。

但如果他們合作,能夠製作9等分的餅,那麼在沒有合作的情況下,他們可以製作的餅總數是1 + 2 = 3等分。因此,合作所創造的額外價值是9 – 3 = 6等分。

為了公平分配,他們決定根據各自的貢獻來分配這6等分的額外價值。

一般人覺得

A師傅的貢獻是1等分,佔總貢獻的1/3,而B師傅的貢獻是2等分,佔總貢獻的2/3。因此,A師傅應該得到這6等分中的1/3,而B師傅應該得到2/3。

這樣,A師傅應該得到2等分(即6 * 1/3),B師傅應該得到4等分(即6 * 2/3)。加上各自本來能製作的餅,A師傅總共應該得到1 + 2 = 3等分,B師傅總共應該得到2 + 4 = 6等分。

會談判的新創

會談判的新創,應該要分平兩者合作帶來的6等分,也就是A師傅應該要拿 1+ 3 = 4等分,B師傅應該要拿 2+3 = 5等分。這樣的分配考慮了各自的能力,也體現了合作的價值,雙方都感到非常滿意。

用台幣一百元創業?別讓一百元限制了你的想像! – 雨 (rain.tips)