高品質彙整 - 雨

MMAudio：自動為影片生成同步音訊的開源解決方案

by rainchu | 12 月 19, 2024 | AI, 影片製作, 語音合成, 音樂

MMAudio 是一款開源的多模態影片轉音訊工具，透過多模態聯合訓練技術，可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發，適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色：

多模態聯合訓練： MMAudio 採用多模態聯合訓練方法，能夠同時處理影片和文字輸入，生成與內容同步的音訊。
高品質音訊合成： 透過先進的模型架構，MMAudio 能夠生成高品質且自然的音訊，適用於各類應用場景。
同步模組： MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配，實現高度同步。

適用場景：

影片配音： 自動為無聲影片生成對應的音訊，提升影片的可觀賞性。
虛擬角色語音生成： 為虛擬角色生成符合其動作和表情的語音，增強互動性。
多媒體內容創作： 協助創作者快速為視覺內容添加音訊，豐富作品表現力。

技術原理：

MMAudio 基於深度學習技術，特別是神經網路，理解和生成音訊資料。模型能夠處理影片和文字輸入，透過深度學習網路提取特徵，進行音訊合成。在訓練時，模型考慮音訊、影片和文字資料，使生成的音訊能夠與影片和文字內容相匹配。透過同步模組，確保音訊輸出與影片畫面或文字描述的時間軸完全對應，實現同步。

使用方法：

MMAudio 提供命令列介面和 Gradio 介面，使用者可以根據需求選擇使用。在命令列中，使用者可以透過指定影片路徑和文字提示，生成對應的音訊。Gradio 介面則提供了更友善的使用者介面，支援影片到音訊和文字到音訊的合成。

已知限制：

目前，MMAudio 存在以下限制：

有時會生成不清晰的語音或背景音樂。
對某些陌生概念的處理不夠理想。

CodeFormer 教學：一鍵去除照片馬賽克，恢復人臉細節

by rainchu | 11 月 29, 2024 | AI, 圖型處理

CodeFormer 是由南洋理工大學 S-Lab 的研究人員開發的一款先進人工智慧工具，專注於人臉修復和增強。它利用代碼查找變壓器（Codebook Lookup Transformer）技術，能夠有效地修復模糊、老舊或受損的人臉圖像，甚至在嚴重退化的情況下，也能生成高品質且真實的面部圖像。

主要特點：

高品質人臉修復： CodeFormer 能夠自動修復模糊或失真的人臉圖像，恢復細節並提升整體畫質。
靈活的保真度調節： 用戶可以通過調整保真度參數，在畫質和真實度之間取得平衡，滿足不同需求。
背景增強： 結合 Real-ESRGAN 技術，CodeFormer 不僅能修復人臉，還能增強背景部分的清晰度。
支援影片處理：不僅只能處理照片，也可以直接處理影片

安裝方法：

安裝條件

Pytorch >= 1.7.1
CUDA >= 10.1

安裝步驟

# git clone this repository
git clone https://github.com/sczhou/CodeFormer
cd CodeFormer

# 官方建議 create new anaconda env
# 我用的是 python 3.11
conda create -n codeformer python=3.8 -y
conda activate codeformer

# install python dependencies
pip3 install -r requirements.txt

# 需要可視化的介面的可以加下面的命令
pip install -q gradio

python basicsr/setup.py develop

# only for face detection or cropping with dlib
conda install -c conda-forge dlib

※dlib是更心的人臉偵測器，可以找出更準確的人臉

安裝訓練模型

安裝官方兩個預先訓練好的模型

python scripts/download_pretrained_models.py CodeFormer

# only for dlib face detector
python scripts/download_pretrained_models.py dlib

需要使用影片增強要安裝 ffmpeg

# For Windows/Mac users, please install ffmpeg first
conda install -c conda-forge ffmpeg

使用方法：

到 OpenXLab 以及 Huggingface 直接使用

臉部修復

# 黑白照片適用
# For cropped and aligned faces (512x512)
# Colorize black and white or faded photo
python inference_colorization.py --input_path [image folder]|[image path]

# 臉部修復專用
# For cropped and aligned faces (512x512)
# Inputs could be masked by white brush using an image editing app (e.g., Photoshop) 
# (check out the examples in inputs/masked_faces)
python inference_inpainting.py --input_path [image folder]|[image path]

影像增強

# Add '--bg_upsampler realesrgan' to enhance the background regions with Real-ESRGAN
# Add '--face_upsample' to further upsample restorated face with Real-ESRGAN
python inference_codeformer.py -w 0.7 --input_path [image folder]|[image path]

影片增強

# For video clips
# Video path should end with '.mp4'|'.mov'|'.avi'
python inference_codeformer.py --bg_upsampler realesrgan --face_upsample -w 1.0 --input_path

訓練模型的方法：

https://github.com/sczhou/CodeFormer/blob/master/docs/train.md

應用場景：

老照片修復： 將老舊或受損的照片進行數位化修復，恢復其原有風采。
模糊照片清晰化： 提升低解析度或模糊照片的清晰度，使細節更加突出。
AI 生成圖像優化： 對 AI 生成但存在瑕疵的人臉圖像進行修復，提升其真實感。

參考資訊：

Hallo AI：讓照片動起來，結合語音技術的革命性數字人類

如何用LeiaPix將你的照片轉變為迷人的3D動畫

擴展、刪除、重塑：Playground AI中的圖像魔法

MMAudio：自動為影片生成同步音訊的開源解決方案

主要特色：

適用場景：

技術原理：

使用方法：

已知限制：

相關資源：

CodeFormer 教學：一鍵去除照片馬賽克，恢復人臉細節

主要特點：

安裝方法：

安裝條件

安裝步驟

安裝訓練模型

使用方法：

臉部修復

影像增強

影片增強

訓練模型的方法：

應用場景：

參考資訊：

近期文章

近期留言

彙整

分類