Select Page
Hallo AI:讓照片動起來,結合語音技術的革命性數字人類

Hallo AI:讓照片動起來,結合語音技術的革命性數字人類


Fusion Lab 又有新款力作,Hallo AI 可以讓用戶僅需提供一張照片和一段語音,就能讓照片中的人物進行說話、唱歌甚至進行動作,為數字內容創作帶來了革命性的突破。

hallo framework

主要功能介紹:

  • 語音動畫同步:用戶只需上傳一張照片及一段WAV格式的英語語音,Hallo AI就能使照片中的人物按語音內容進行動作,包括說話和唱歌。
  • 動作自然流暢:結合精確的面部識別和動作捕捉技術,保證人物動作的自然流暢,令人印象深刻。

技術框架:

  • 音頻處理:使用Kim_Vocal_2 MDX-Net的vocal removal模型分離語音。
  • 面部分析:透過insightface進行2D和3D的臉部分析。
  • 面部標記:利用mediapipe的面部檢測和mesh模型進行精確標記。
  • 動作模組:AnimateDiff的動作模組為動作生成提供支持。
  • 影像生成:StableDiffusion V1.5和sd-vae-ft-mse模型協同工作,用於生成和調整圖像細節。
  • 聲音向量化:Facebook的wav2vec模型將WAV音頻轉換為向量數據。

安裝方法

盡量採用 Linux 平台,我這邊測試成功的有 Ubuntu 20 WSL 版本,就可以簡單三個步驟,部過前提要記得先安裝好 WSL CUDA 支援

1.建立虛擬環境

  conda create -n hallo python=3.10
  conda activate hallo

2.安裝相關的依賴

  pip install -r requirements.txt
  pip install .

3.要有 ffmpeg 支援

  apt-get install ffmpeg

4.測試與驗證

python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav

最近更新:

  • 在🤗Huggingface空間克隆了一個Gradio演示。
  • 新增Windows版本、ComfyUI界面、WebUI和Docker模板。

參考資料

Hallo GitHub

Hallo Model

大神開發的Windows介面

Hallo 線上版本

Hallo Docker版

影片跳舞合成

音樂的新世紀:人工智慧與音樂生成(Music Gen)

音樂的新世紀:人工智慧與音樂生成(Music Gen)

又是 Facebook(Meta),在AI上的研究不落人後,隨著人工智慧的快速發展,音樂生成的領域也正在經歷革命性的變革。本文將深入探討這一技術的演進,揭示如何應用各種的AI工具來創造音樂

試試現成的服務

描述一下你想要的音樂類型、場景

https://waveformer.replicate.dev/

Facebook 開發程式碼

https://github.com/facebookresearch/audiocraft

Music Gen 與其他三個比較、MusicLM、Riffusion、Musai

https://ai.honu.io/papers/musicgen/

Music Gen 論文

https://arxiv.org/abs/2306.05284

免費可以測試用的 huggingface 服務

https://huggingface.co/spaces/facebook/MusicGen

用 Google Colab 來做測試

https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing

延伸閱讀