Select Page
MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色:

  • 多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
  • 高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
  • 同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。

適用場景:

  • 影片配音: 自動為無聲影片生成對應的音訊,提升影片的可觀賞性。
  • 虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
  • 多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。

技術原理:

MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。

使用方法:

MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。

已知限制:

目前,MMAudio 存在以下限制:

  • 有時會生成不清晰的語音或背景音樂。
  • 對某些陌生概念的處理不夠理想。

相關資源:

虛擬試穿到虛擬脫衣:TryOffDiff 開啟服裝重建新時代

虛擬試穿到虛擬脫衣:TryOffDiff 開啟服裝重建新時代

TryOffDiff:開創虛擬脫衣的新方向

在電子商務與生成式模型的發展中,虛擬試穿(Virtual Try-On, VTON)技術早已佔據重要一席之地,讓用戶能在數位環境中模擬穿戴效果,但一項新興的任務——虛擬脫衣(Virtual Try-Off, VTOFF)正在改變我們對電子商務中的服裝數位化處理的理解。

什麼是 VTOFF?

虛擬脫衣(VTOFF)是可以從穿著者的單張照片中提取標準化的服裝影像,而不是僅僅模擬服裝穿著的效果,最大的好處是幫助你快速分離模特兒身上的衣服,VTOFF 的挑戰在於,如何準確捕捉服裝的形狀、材質與細節紋理,同時去除穿著者的影響,生成一個純粹且高還原度的服裝影像。

這項任務的核心價值在於:

  1. 提供標準化的服裝圖像,有助於電子商務中的產品展示。
  2. 評估生成式模型的重建能力,成為模型研究與改進的重要工具。

試用 VTOFF

TryOffDiff:專為 VTOFF 打造的生成模型

針對 VTOFF 的挑戰,TryOffDiff 模型應運而生。這是一種基於 Stable Diffusion 的生成架構,結合了 SigLIP 視覺條件技術,確保高還原度與細節保留。與傳統的虛擬試穿和姿態轉移技術相比,TryOffDiff 擁有以下優勢:

  1. 重建品質卓越:TryOffDiff 在處理服裝紋理、複雜細節以及準確的形狀表現上表現突出。
  2. 簡化處理流程:不需要繁瑣的前處理與後處理步驟,顯著提高效率。
  3. 改進的評估方法:傳統影像生成指標難以準確衡量重建品質,TryOffDiff 使用 DISTS(Deep Image Structure and Texture Similarity) 作為評估標準,提供更可靠的結果分析。

實驗成果與應用前景

TryOffDiff 的實驗基於改進版的 VITON-HD 資料集進行,結果顯示其重建表現超越現有基準方法。特別是在以下領域:

  1. 電子商務:幫助商家輕鬆生成標準化產品影像,提升顧客的購物體驗。
  2. 生成式模型評估:作為生成模型評估的重要參考,推動更高還原度的技術研究。
  3. 未來發展:激發針對高品質影像重建的新技術創新。

參考資料

Faceswap-超簡單的 AI 換臉工具

Faceswap-超簡單的 AI 換臉工具

完全開源的 AI 換臉工具,也提供了預先編譯好的程式碼,只需要簡單的三個步驟

  • 找到圖片中的人臉
  • 訓練模型
  • 合成

Faceswap 官網

有支援多人臉的尋找以及合成,合成的效果還不錯,只是訓練的時間有點久

v0.dev:輸入網址,即可生成相同網站前端的 AI 工具

v0.dev:輸入網址,即可生成相同網站前端的 AI 工具

v0.dev 是由 Vercel 開發的 AI 驅動工具,你只要透過簡單的文字提示,就可以快速生成前端網頁的 UI 元件程式碼,其核心特色在於用戶只需輸入需求描述,v0.dev 即可生成對應的 React、Vue 或 Svelte 組件程式碼,並可直接複製到專案中使用。

主要功能:

  • 自然語言生成 UI 元件: 用戶可透過輸入簡單的文字描述,v0.dev 會根據提示生成相應的 UI 元件程式碼,無需手動編寫。
  • 即時程式碼複製與整合: 生成的程式碼可直接複製,並整合至現有專案中,方便進行客製化調整。 
  • 支援多種前端框架: 除了 React,v0.dev 也支援 Vue 和 Svelte 等框架,滿足不同開發者的需求。 

使用方法:

  1. 訪問 v0.dev 網站: 在瀏覽器中開啟 v0.dev
  2. 輸入提示詞: 在提示框中輸入您想要複製的網址即可。 
  3. 生成並複製程式碼: v0.dev 會根據您的描述生成對應的程式碼,您可直接複製並整合至您的專案中。

參考資訊:

CodeFormer 教學:一鍵去除照片馬賽克,恢復人臉細節

CodeFormer 是由南洋理工大學 S-Lab 的研究人員開發的一款先進人工智慧工具,專注於人臉修復和增強。它利用代碼查找變壓器(Codebook Lookup Transformer)技術,能夠有效地修復模糊、老舊或受損的人臉圖像,甚至在嚴重退化的情況下,也能生成高品質且真實的面部圖像。

主要特點:

  • 高品質人臉修復: CodeFormer 能夠自動修復模糊或失真的人臉圖像,恢復細節並提升整體畫質。
  • 靈活的保真度調節: 用戶可以通過調整保真度參數,在畫質和真實度之間取得平衡,滿足不同需求。
  • 背景增強: 結合 Real-ESRGAN 技術,CodeFormer 不僅能修復人臉,還能增強背景部分的清晰度。
  • 支援影片處理:不僅只能處理照片,也可以直接處理影片

安裝方法:

安裝條件

  • Pytorch >= 1.7.1
  • CUDA >= 10.1

安裝步驟

# git clone this repository
git clone https://github.com/sczhou/CodeFormer
cd CodeFormer

# 官方建議 create new anaconda env
# 我用的是 python 3.11
conda create -n codeformer python=3.8 -y
conda activate codeformer

# install python dependencies
pip3 install -r requirements.txt

# 需要可視化的介面的可以加下面的命令
pip install -q gradio

python basicsr/setup.py develop

# only for face detection or cropping with dlib
conda install -c conda-forge dlib

※dlib是更心的人臉偵測器,可以找出更準確的人臉

安裝訓練模型

安裝官方兩個預先訓練好的模型

python scripts/download_pretrained_models.py CodeFormer

# only for dlib face detector
python scripts/download_pretrained_models.py dlib

需要使用影片增強要安裝 ffmpeg

# For Windows/Mac users, please install ffmpeg first
conda install -c conda-forge ffmpeg

使用方法:

OpenXLab 以及 Huggingface 直接使用

臉部修復

# 黑白照片適用
# For cropped and aligned faces (512x512)
# Colorize black and white or faded photo
python inference_colorization.py --input_path [image folder]|[image path]

# 臉部修復專用
# For cropped and aligned faces (512x512)
# Inputs could be masked by white brush using an image editing app (e.g., Photoshop) 
# (check out the examples in inputs/masked_faces)
python inference_inpainting.py --input_path [image folder]|[image path]

影像增強

# Add '--bg_upsampler realesrgan' to enhance the background regions with Real-ESRGAN
# Add '--face_upsample' to further upsample restorated face with Real-ESRGAN
python inference_codeformer.py -w 0.7 --input_path [image folder]|[image path]

影片增強

# For video clips
# Video path should end with '.mp4'|'.mov'|'.avi'
python inference_codeformer.py --bg_upsampler realesrgan --face_upsample -w 1.0 --input_path 

訓練模型的方法:

https://github.com/sczhou/CodeFormer/blob/master/docs/train.md

應用場景:

  • 老照片修復: 將老舊或受損的照片進行數位化修復,恢復其原有風采。
  • 模糊照片清晰化: 提升低解析度或模糊照片的清晰度,使細節更加突出。
  • AI 生成圖像優化: 對 AI 生成但存在瑕疵的人臉圖像進行修復,提升其真實感。

參考資訊:

Flowise vs. 其他 AI 代理工具:哪個更適合您的需求?

Flowise vs. 其他 AI 代理工具:哪個更適合您的需求?

Flowise 是一款開源的低代碼工具,一般人也可以輕易地使用,用於構建自定義的大語言模型(LLM)編排流程和 AI 代理。透過直觀的拖放介面,使用者可以輕鬆設計複雜的 AI 工作流程,無需深入的程式設計知識。

Flowise 的主要特點:

  • 開源且免費:Flowise 完全開源,使用者可自由使用並進行二次開發,無需擔心授權問題。 GitHub
  • 低代碼開發:透過簡單的拖放介面,使用者可以快速構建 LLM 應用,縮短開發週期。 Flowise AI Docs
  • 多代理支援:Flowise 提供多代理系統,允許使用者設計可與外部工具和資料來源互動的代理,實現更高效的任務處理。 Flowise AI Docs
  • 靈活的工作流程設計:使用者可以根據需求,自定義工作流程的邏輯和順序,滿足不同場景的應用需求。 

Flowise 與其他 AI 代理工具的差異:

  1. Langflow 的比較:Langflow 專注於自然語言處理,提供可視化介面來構建和調試語言處理流程。相比之下,Flowise 更強調 LLM 的編排和代理的靈活性,適用範圍更廣。 
  2. Dify 的比較:Dify 致力於簡化 AI 應用的部署,提供一站式解決方案。而 Flowise 更專注於工作流程的設計和代理的構建,提供更大的自定義空間。 
  3. 與其他工具的比較:Flowise 的開源性和低代碼特性,使其在靈活性和可擴展性方面具有優勢,適合需要快速迭代和自定義需求的開發者。 

參考資料