###################################
# Sample a speaker from Gaussian.
rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recovery
params_infer_code = ChatTTS.Chat.InferCodeParams(
spk_emb = rand_spk, # add sampled speaker
temperature = .3, # using custom temperature
top_P = 0.7, # top P decode
top_K = 20, # top K decode
)
###################################
# For sentence level manual control.
# use oral_(0-9), laugh_(0-2), break_(0-7)
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(
prompt='[oral_2][laugh_0][break_6]',
)
wavs = chat.infer(
texts,
params_refine_text=params_refine_text,
params_infer_code=params_infer_code,
)
###################################
# For word level manual control.
text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code)
"""
In some versions of torchaudio, the first line works but in other versions, so does the second line.
"""
try:
torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]).unsqueeze(0), 24000)
except:
torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]), 24000)
想要一鍵生成自己人頭的3D模型,已經有很多好用的工具,但這次所提供的 Unique3D 還是讓人驚艷,能夠從單一視角圖像高效地生成高品質的 3D 網格。這個框架使用了最新的生成保真度技術和強大的泛化能力。傳統的基於 Score Distillation Sampling(SDS)的方法能夠從大型 2D 擴散模型中提取 3D 知識來生成多樣化的 3D 結果,但這些方法通常需要長時間的個案優化,且結果常有不一致的問題。
最近的研究通過微調多視角擴散模型或訓練快速的前向模型來解決這一問題,生成了更好的 3D 結果。然而,這些方法在紋理和複雜幾何形狀的生成上仍存在不一致性和解析度限制。為了同時實現高保真度、一致性和效率,Unique3D 提出了一個包括多視角擴散模型和對應的標準擴散模型的框架,用於生成多視角圖像及其法線圖,並通過多級放大過程逐步提高生成的正交多視角圖像的解析度。
此外,Unique3D 還引入了一個稱為 ISOMER 的即時且一致的網格重建算法,該算法充分整合了顏色和幾何先驗知識到網格結果中,讓Unique3D 在幾何和紋理細節方面顯著優於其他圖像到 3D 的基線方法。
近期留言