Select Page
虛擬試穿到虛擬脫衣:TryOffDiff 開啟服裝重建新時代

虛擬試穿到虛擬脫衣:TryOffDiff 開啟服裝重建新時代

TryOffDiff:開創虛擬脫衣的新方向

在電子商務與生成式模型的發展中,虛擬試穿(Virtual Try-On, VTON)技術早已佔據重要一席之地,讓用戶能在數位環境中模擬穿戴效果,但一項新興的任務——虛擬脫衣(Virtual Try-Off, VTOFF)正在改變我們對電子商務中的服裝數位化處理的理解。

什麼是 VTOFF?

虛擬脫衣(VTOFF)是可以從穿著者的單張照片中提取標準化的服裝影像,而不是僅僅模擬服裝穿著的效果,最大的好處是幫助你快速分離模特兒身上的衣服,VTOFF 的挑戰在於,如何準確捕捉服裝的形狀、材質與細節紋理,同時去除穿著者的影響,生成一個純粹且高還原度的服裝影像。

這項任務的核心價值在於:

  1. 提供標準化的服裝圖像,有助於電子商務中的產品展示。
  2. 評估生成式模型的重建能力,成為模型研究與改進的重要工具。

試用 VTOFF

TryOffDiff:專為 VTOFF 打造的生成模型

針對 VTOFF 的挑戰,TryOffDiff 模型應運而生。這是一種基於 Stable Diffusion 的生成架構,結合了 SigLIP 視覺條件技術,確保高還原度與細節保留。與傳統的虛擬試穿和姿態轉移技術相比,TryOffDiff 擁有以下優勢:

  1. 重建品質卓越:TryOffDiff 在處理服裝紋理、複雜細節以及準確的形狀表現上表現突出。
  2. 簡化處理流程:不需要繁瑣的前處理與後處理步驟,顯著提高效率。
  3. 改進的評估方法:傳統影像生成指標難以準確衡量重建品質,TryOffDiff 使用 DISTS(Deep Image Structure and Texture Similarity) 作為評估標準,提供更可靠的結果分析。

實驗成果與應用前景

TryOffDiff 的實驗基於改進版的 VITON-HD 資料集進行,結果顯示其重建表現超越現有基準方法。特別是在以下領域:

  1. 電子商務:幫助商家輕鬆生成標準化產品影像,提升顧客的購物體驗。
  2. 生成式模型評估:作為生成模型評估的重要參考,推動更高還原度的技術研究。
  3. 未來發展:激發針對高品質影像重建的新技術創新。

參考資料

CodeFormer 教學:一鍵去除照片馬賽克,恢復人臉細節

CodeFormer 是由南洋理工大學 S-Lab 的研究人員開發的一款先進人工智慧工具,專注於人臉修復和增強。它利用代碼查找變壓器(Codebook Lookup Transformer)技術,能夠有效地修復模糊、老舊或受損的人臉圖像,甚至在嚴重退化的情況下,也能生成高品質且真實的面部圖像。

主要特點:

  • 高品質人臉修復: CodeFormer 能夠自動修復模糊或失真的人臉圖像,恢復細節並提升整體畫質。
  • 靈活的保真度調節: 用戶可以通過調整保真度參數,在畫質和真實度之間取得平衡,滿足不同需求。
  • 背景增強: 結合 Real-ESRGAN 技術,CodeFormer 不僅能修復人臉,還能增強背景部分的清晰度。
  • 支援影片處理:不僅只能處理照片,也可以直接處理影片

安裝方法:

安裝條件

  • Pytorch >= 1.7.1
  • CUDA >= 10.1

安裝步驟

# git clone this repository
git clone https://github.com/sczhou/CodeFormer
cd CodeFormer

# 官方建議 create new anaconda env
# 我用的是 python 3.11
conda create -n codeformer python=3.8 -y
conda activate codeformer

# install python dependencies
pip3 install -r requirements.txt

# 需要可視化的介面的可以加下面的命令
pip install -q gradio

python basicsr/setup.py develop

# only for face detection or cropping with dlib
conda install -c conda-forge dlib

※dlib是更心的人臉偵測器,可以找出更準確的人臉

安裝訓練模型

安裝官方兩個預先訓練好的模型

python scripts/download_pretrained_models.py CodeFormer

# only for dlib face detector
python scripts/download_pretrained_models.py dlib

需要使用影片增強要安裝 ffmpeg

# For Windows/Mac users, please install ffmpeg first
conda install -c conda-forge ffmpeg

使用方法:

OpenXLab 以及 Huggingface 直接使用

臉部修復

# 黑白照片適用
# For cropped and aligned faces (512x512)
# Colorize black and white or faded photo
python inference_colorization.py --input_path [image folder]|[image path]

# 臉部修復專用
# For cropped and aligned faces (512x512)
# Inputs could be masked by white brush using an image editing app (e.g., Photoshop) 
# (check out the examples in inputs/masked_faces)
python inference_inpainting.py --input_path [image folder]|[image path]

影像增強

# Add '--bg_upsampler realesrgan' to enhance the background regions with Real-ESRGAN
# Add '--face_upsample' to further upsample restorated face with Real-ESRGAN
python inference_codeformer.py -w 0.7 --input_path [image folder]|[image path]

影片增強

# For video clips
# Video path should end with '.mp4'|'.mov'|'.avi'
python inference_codeformer.py --bg_upsampler realesrgan --face_upsample -w 1.0 --input_path 

訓練模型的方法:

https://github.com/sczhou/CodeFormer/blob/master/docs/train.md

應用場景:

  • 老照片修復: 將老舊或受損的照片進行數位化修復,恢復其原有風采。
  • 模糊照片清晰化: 提升低解析度或模糊照片的清晰度,使細節更加突出。
  • AI 生成圖像優化: 對 AI 生成但存在瑕疵的人臉圖像進行修復,提升其真實感。

參考資訊:

img.ly:創意設計與影像編輯的強大工具

img.ly:創意設計與影像編輯的強大工具

img.ly 是一個專為設計、影像編輯和整合工具需求而打造的平台,有支援RD的各種SDK和API,能幫助用戶輕鬆創建高品質的影像內容,並支援各種應用場景的開發需求

什麼是 img.ly?

img.ly 是一家專注於設計與影像編輯解決方案的科技公司,他們提供 API 和 SDK 服務,協助 RD 們將影像編輯功能直接整合到自己的應用程式或網站中。無論是建立圖片編輯器、社群媒體應用、行動遊戲,甚至是專業設計軟體。

其主要產品包括:

  1. PhotoEditor SDK:功能強大的照片編輯工具,支援剪裁、濾鏡、文字覆蓋、筆刷、調整顏色等多種影像處理功能。
  2. VideoEditor SDK:讓開發者為用戶提供簡單易用的影片編輯功能,包括剪輯、特效、濾鏡、文字添加等。
  3. Design Editor:一個強大的設計平台,類似 Canva,幫助用戶快速製作出海報、名片、社群圖片等設計。

img.ly 的特色功能

  1. 高度可客製化
    • 開發者可以根據需求調整編輯工具的外觀和功能,例如自訂顏色主題、添加專屬素材庫,甚至修改界面布局,讓用戶體驗更符合品牌形象。
  2. 跨平台支援
    • img.ly 的 SDK 支援多種開發環境,包括 Web、iOS 和 Android,並與主流框架如 React、Angular、Vue.js 相容,實現無縫整合。
  3. AI 智能編輯
    • img.ly 結合了人工智慧技術,能夠自動識別影像內容並提供智能建議,例如背景移除、自動調整濾鏡效果等,節省用戶的操作時間。
  4. 專業級性能
    • SDK 以高效的設計為基礎,能快速處理大型影像文件且不損失品質,適合需要精細控制的專業級設計需求。
  5. 商業授權與支援
    • img.ly 提供靈活的商業授權模式,適合各種規模的企業。客戶還可獲得專業的技術支援,確保產品整合順利進行。

適用的應用場景

img.ly 的工具應用於:

  • 列印功能:支援進階的列印功能選項,像我最近的專案就需要控制進階列印選項,像是控制列印邊界,調整大小等
  • 社交媒體平台:用戶可以在應用內編輯照片和影片,創造吸引人的內容。
  • 電商平台:提供商品圖片快速修飾或廣告素材製作工具。
  • 教育領域:幫助學生進行多媒體創作,激發創造力。
  • 遊戲開發:嵌入角色設計或遊戲場景編輯功能。

相關資訊

YOLOv10: 新一代目標檢測模型的創新進展

YOLO系列自從其首次推出以來,已經成為深度學習領域中目標檢測技術的代表之一。最新版本的YOLOv10在速度與精度上均有顯著的提升,其核心創新點主要集中在以下幾個方面:

核心創新點

  1. 一對多分配(One to Many Assignment):此機制允許每個標記框在訓練過程中對應多個預測框,這樣可以增強模型對於目標位置的學習能力,並提高其泛化性。
  2. 非極大值抑制(Non-maximum Suppression):進一步優化了這一傳統技術,以減少重複檢測並提升檢測的準確率。
  3. 一致的雙重分配策略:這種新策略確保了在對不同尺寸的目標進行預測時,分配的一致性和效率,進一步提升了模型的精確度和響應速度。
  4. 提升回歸頭的權重與效能:通過增加回歸頭(負責目標定位)的權重,YOLOv10對目標的位置和尺寸估計更為精確,進一步提升了整體的檢測性能。
  5. 對特徵圖的空間和通道維度進行降採樣:這一技術有助於減少計算量,同時保持模型對重要特徵的捕捉能力,從而提高了運行效率。
  6. 低秩補全(Low-Rank Completion):這一新技術的加入,旨在減少模型中冗餘的計算,使模型在保持高精度的同時,運行更加高效。

參考資料

論文出處

GitHub 項目

使用方法

可以參考 YT 的影片,但主要還是用 github 中的方法比較好用

相關文章

比肩 FLUX!Ideogram 讓 AI 圖片生成更寫實、更個性化

比肩 FLUX!Ideogram 讓 AI 圖片生成更寫實、更個性化

在數位創作領域,最近正在火 FLUX 1,但 AI 生成圖片新創不斷推成出新,而 Ideogram 則是近期受到矚目的服務之一。這項服務讓使用者可以通過簡單的文字輸入來生成高質量的圖片,並且在效果和功能上都有其獨特的優勢。

Ideogram 的五大特色

  1. 優秀的效果媲美 FLUX Ideogram 的圖片生成效果可說與 FLUX.1 不相上下,能夠呈現高水準的圖像品質和細膩的細節,無論是自然場景還是具象物件,細節的處理都相當到位。
  2. 每日免費點數讓創作無限 Ideogram 每日提供使用者免費點數,大約可以生成五組圖片,這讓初次嘗試的使用者可以免費體驗其服務,且不必擔心每次生成都需要付費。這樣的彈性也吸引了許多創作者持續回訪。
  3. 比 FLUX 更寫實的圖片品質 與目前其他 AI 圖像生成服務(如 FLUX)相比,Ideogram 能夠生成更加寫實的圖片。這點對於需要精緻細節的設計師或品牌來說尤其重要,能夠符合更多商業與創作需求。
  4. 精準的文字輸出能力 一大特色是 Ideogram 能夠正確地在圖片中嵌入文字。這對於需要文字設計或標語的創作尤其實用。過往許多 AI 圖像生成工具常常會錯誤呈現文字,但 Ideogram 則解決了這個困擾,讓使用者能更精確地輸出文字圖像。
  5. 自訂色調控制 Ideogram 提供色盤工具,允許使用者控制生成圖片的色調,使整體風格更具一致性。無論是偏愛溫暖、冷色或復古的色彩效果,都能輕鬆調整,這在多數 AI 圖像生成平台中是少見的功能,尤其適合想要精確調色的設計需求。

極真實的圖片生成

可以看到下圖,現在生成的人物,可以說是完全無法辨識是否為真人還是AI,這邊的模型也沒限制你明星是不能當作提示詞,所以你可以盡情想像和發揮,但有肖像權的問題時還是不建議商用

價目表

這個費用比起主流的服務也相對的有誠意,如果用起來滿意,是真的可以考慮買一下的

咒語示範

A photo of a 20-year-old Chinese model with brown hair. She is smiling and wearing a navy blue fitted t-shirt. She is standing at a convention center, surrounded by a crowd of people. The background contains a large stage with a banner that reads “Welcome to the International Fashion Convention”.

A smiling 20-year old China model with brown hair

如有興趣,可直接訪問他們的官方網站了解更多:Ideogram 官方網站

參考資料

Deep Live Cam-簡單易用,被遮擋也沒關係的即時換臉

Deep Live Cam-簡單易用,被遮擋也沒關係的即時換臉

用有多張臉,即時更換人臉的開源軟體,而且有綠色直接使用版本,已經幫忙把環境都打包好了,給懶人使用,支援windows、MAC、GPU

必要條件

Git 原始碼

https://github.com/hacksider/Deep-Live-Cam.git

下載模型

  1. GFPGANv1.4
  2. inswapper_128.onnx (Note: Use this replacement version if an issue occurs on your computer)

並且將這兩個檔案放在 models 的目錄下

安裝相關依賴

pip install -r requirements.txt

參考資料

https://github.com/hacksider/Deep-Live-Cam