Hallo AI:讓照片動起來,結合語音技術的革命性數字人類
Fusion Lab 又有新款力作,Hallo AI 可以讓用戶僅需提供一張照片和一段語音,就能讓照片中的人物進行說話、唱歌甚至進行動作,為數字內容創作帶來了革命性的突破。
主要功能介紹:
- 語音動畫同步:用戶只需上傳一張照片及一段WAV格式的英語語音,Hallo AI就能使照片中的人物按語音內容進行動作,包括說話和唱歌。
- 動作自然流暢:結合精確的面部識別和動作捕捉技術,保證人物動作的自然流暢,令人印象深刻。
技術框架:
- 音頻處理:使用Kim_Vocal_2 MDX-Net的vocal removal模型分離語音。
- 面部分析:透過insightface進行2D和3D的臉部分析。
- 面部標記:利用mediapipe的面部檢測和mesh模型進行精確標記。
- 動作模組:AnimateDiff的動作模組為動作生成提供支持。
- 影像生成:StableDiffusion V1.5和sd-vae-ft-mse模型協同工作,用於生成和調整圖像細節。
- 聲音向量化:Facebook的wav2vec模型將WAV音頻轉換為向量數據。
安裝方法
盡量採用 Linux 平台,我這邊測試成功的有 Ubuntu 20 WSL 版本,就可以簡單三個步驟,部過前提要記得先安裝好 WSL CUDA 支援
1.建立虛擬環境
conda create -n hallo python=3.10 conda activate hallo
2.安裝相關的依賴
pip install -r requirements.txt pip install .
3.要有 ffmpeg 支援
apt-get install ffmpeg
4.測試與驗證
python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav
最近更新:
- 在🤗Huggingface空間克隆了一個Gradio演示。
- 新增Windows版本、ComfyUI界面、WebUI和Docker模板。
近期留言