Select Page
Hallo AI:讓照片動起來,結合語音技術的革命性數字人類

Hallo AI:讓照片動起來,結合語音技術的革命性數字人類


Fusion Lab 又有新款力作,Hallo AI 可以讓用戶僅需提供一張照片和一段語音,就能讓照片中的人物進行說話、唱歌甚至進行動作,為數字內容創作帶來了革命性的突破。

hallo framework

主要功能介紹:

  • 語音動畫同步:用戶只需上傳一張照片及一段WAV格式的英語語音,Hallo AI就能使照片中的人物按語音內容進行動作,包括說話和唱歌。
  • 動作自然流暢:結合精確的面部識別和動作捕捉技術,保證人物動作的自然流暢,令人印象深刻。

技術框架:

  • 音頻處理:使用Kim_Vocal_2 MDX-Net的vocal removal模型分離語音。
  • 面部分析:透過insightface進行2D和3D的臉部分析。
  • 面部標記:利用mediapipe的面部檢測和mesh模型進行精確標記。
  • 動作模組:AnimateDiff的動作模組為動作生成提供支持。
  • 影像生成:StableDiffusion V1.5和sd-vae-ft-mse模型協同工作,用於生成和調整圖像細節。
  • 聲音向量化:Facebook的wav2vec模型將WAV音頻轉換為向量數據。

安裝方法

盡量採用 Linux 平台,我這邊測試成功的有 Ubuntu 20 WSL 版本,就可以簡單三個步驟,部過前提要記得先安裝好 WSL CUDA 支援

1.建立虛擬環境

  conda create -n hallo python=3.10
  conda activate hallo

2.安裝相關的依賴

  pip install -r requirements.txt
  pip install .

3.要有 ffmpeg 支援

  apt-get install ffmpeg

4.測試與驗證

python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav

最近更新:

  • 在🤗Huggingface空間克隆了一個Gradio演示。
  • 新增Windows版本、ComfyUI界面、WebUI和Docker模板。

參考資料

Hallo GitHub

Hallo Model

大神開發的Windows介面

Hallo 線上版本

Hallo Docker版

影片跳舞合成

開外掛拉,進階使用 Lora 的權重以及設定

開外掛拉,進階使用 Lora 的權重以及設定

Stable Diffusion Lora 超好用,已經不太需要說明,今天要來介紹一個可以讓 Lora 放開她的束縛,可以完全調整 Lora 在模型中的每一層的權重設定,為何要有分層設定,可以看看原作者的下面這張說明圖,分別在不同層插入 Lora 可以有不同的效果出現,也可以更精準的控制AI

LoRA 權重外掛

hako-mikan/sd-webui-lora-block-weight (github.com)

安裝方法,到擴充功能中,選擇從網址安裝,並且輸入 hako-mikan/sd-webui-lora-block-weight (github.com)

之後重啟系統即可看到多了 LoRA Block Weight 可以用

至於使用效果的話,我建議都試試看上面的設定,再去拿捏下手的感覺

LoRA 整合權重外掛的 UI

bbc-mc/sdweb-merge-block-weighted-gui: Merge models with separate rate for each 25 U-Net block (input, middle, output). Extension for Stable Diffusion UI by AUTOMATIC1111 (github.com)

LoRA擁有17個作用層

參考資料

如何在手機上用 AI 繪圖?

如何在手機上用 AI 繪圖?

隨著科技的快速發展,人工智能(AI)已經深入滲透到我們日常生活的方方面面。在這個世代,手機已經成為我們生活中不可或缺的一部分。而現在,我們可以利用AI技術在手機上進行繪畫,使創作變得更加輕鬆、有趣和高效。在這篇文章中,我們將探討如何在手機上使用AI進行繪圖,以及如何充分利用這些工具來提高您的藝術技巧,讓你可以離開鍵盤和滑鼠的限制,用手點一點也可以AI繪畫。

直接用現成的APP

機畫師-專業的AI繪畫APP-支持controlNet

有團隊把 Stable Diffusion 的 Webui 做成 APP 給大家使用,需要付費,如果不想用電腦的可以試試看


Pixai.Art

在 Android 上的 AI 繪圖軟體,底層也是採用 Stable Diffusion ,現在也支援 LORA 和 Control Net


Google Colab

用 Google Colab 雲端伺服器來幫忙運算,原則免費,但建議可以付點錢,享受更快更穩,不麻煩的服務

https://colab.research.google.com/github/camenduru/stable-diffusion-webui-colab/blob/main/stable/chillout_mix_webui_colab.ipynb

直接用上面的網址,然後都下一步,就可以建立起自己的 WebUi


Draw Things

https://drawthings.ai/

用 iPhone 上面的資(CPU、GPU),來做AI繪圖,可以離線使用,但手機會很燙,且很耗電


How to run Stable Diffusion on Termux on Android phone

https://ivonblog.com/en-us/posts/android-stable-diffusion/

神人教你如何在 Android 上面安裝自己的 Stable Diffusion Webui ,過程很難,且不是每一隻手機都可以,有興趣的在看看即可

參考資料

Stable Diffusion : No module ‘xformers’. Proceeding without it.

Stable Diffusion : No module ‘xformers’. Proceeding without it.

當你使用 Stable Diffusion 的 Webui 版本,預設啟動的時候會出現一行 No module ‘xformers’. Proceeding without it. 最有可能的情況是你已經安裝好 xformers ,但沒有啟動她,可以看看以下的解決方法

No module ‘xformers’. Proceeding without it.

Windows 使用者修改 webui-user.bat

請打開 webui-user.bat 並且找到 set COMMANDLINE_ARGS= ,在後面加入 –xformers 參數,讓他變成下面的樣子

set COMMANDLINE_ARGS=--xformers

存檔後離開,並且重新執行 Webui 即可,但如果有錯誤,通常是執行環境以及CUDA的問題,那就先關閉,在找其他解法

補充說明

set COMMANDLINE_ARGS 後面可以接的參數如下,當你有記憶題不足的問題,可以嘗試其他的參數看看

–xformers

–medvram

–medvram –opt-split-attention –precision full –no-half

–medvram –opt-split-attention

–opt-split-attention

參考資料

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/5303