huggingface 彙整

OmniParser-微軟的開源螢幕解析工具

by Rain Chu | 11 月 6, 2024 | Agent, AI

繼之前提到的 Ahthropic Computer Use ，那時候超級驚豔的，馬上就看到MS也有推出自己的版本，雖然沒有自動執行功能，但可以配合 pyautogui 達成，雖然不支援中文，但可以透過中文OCR 或是 tesseract 處理

安裝到本地端

先建立一個虛擬環境起來

conda create -n omni python=3.12 -y
conda activate omni

選項:有GPU的，先把CUDA安裝起來

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

整個安裝也很簡單，就五個步驟

git clone https://github.com/microsoft/OmniParser.git && cd OmniParser
pip install -r requirements.txt
huggingface-cli download --repo-type model microsoft/OmniParser --local-dir weights --include "icon_detect/*" "icon_caption_blip2/*" "icon_caption_florence/*"
python /home/Ubuntu/OmniParser/weights/convert_safetensor_to_pt.py
python gradio_demo.py

OmniParser 1.5 更新

先下載模型

python weights/convert_safetensor_to_pt.py

For v1.5: 
download 'model_v1_5.pt' from https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5, make a new dir: weights/icon_detect_v1_5, and put it inside the folder. No weight conversion is needed.

執行指令要改成 1.5 版本

python gradio_demo.py --icon_detect_model weights/icon_detect_v1_5/model_v1_5.pt --icon_caption_model florence2

支援其他的語言

舉例來說，要改成中文，請找到專案下的 utils.py ，將 en 改成 ch

reader = easyocr.Reader(['en'])
paddle_ocr = PaddleOCR(
#    lang='en',  # other lang also available
    lang='ch',  # other lang also available
    use_angle_cls=False,
    use_gpu=False,  # using cuda will conflict with pytorch in the same process
    show_log=False,
    max_batch_size=1024,
    use_dilation=True,  # improves accuracy
    det_db_score_mode='slow',  # improves accuracy
    rec_batch_num=1024)

在介面中選取使用 PaddleOCR

增強式 ChatTTS 跟 Ollama 的整合

by Rain Chu | 10 月 20, 2024 | AI, Chat, 語音合成

可以中英文混合，笑聲，停頓的好用的語音生成模型

直接使用 ChatTTS

ChatTTS online DEMO https://chattts.com/#Demo

增強後好看又好用的 ChatTTS 外框 ChatTTS-Forge https://huggingface.co/spaces/lenML/ChatTTS-Forge

自行開發程式的重要資源

ChatTTS 官方說明 https://github.com/2noise/ChatTTS/blob/main/docs/cn/README.md

整合各種超強的 ChatTTS應用 https://github.com/libukai/Awesome-ChatTTS

ChatTTS 跟 Ollama 的整合 Demo https://github.com/melodylife/ollama-chat

延伸閱讀

ChatTTS-完整使用指南

Flux AI – 終於可以在圖片上產出文字了

by rainchu | 8 月 29, 2024 | AI, 繪圖

免費使用 Flux AI 的方法

在自己的電腦中使用 Flux AI

採用 flux pro api

Flux API – black-forest-labs(黑森林實驗室中的最強文生圖)

API 文件

在自己的電腦安裝

Flux 建議用 Pyhton 3.10 ，可以去 GitHub 下載並且安裝，但只能使用 dev (開發版) 和 Schnell (速度版)

cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e ".[all]"

模型連結如下

FLUX 1 schnell

FLUX 1 Dev

安裝好模型和程式後，設定如下

export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>

使用的方法有兩種，一個是開啟交互介面

python -m flux --name <name> --loop

另一個是直接在 CLI 介面上產圖

python -m flux --name <name> \
  --height <height> --width <width> \
  --prompt "<prompt>"

參數說明

--name: 模型名稱 “flux-schnell”, “flux-dev”)
--device: 用CPU還是GPU運算 (default: “cuda” if available, otherwise “cpu”)
--offload: 模型未被使用時，將其從 GPU 卸載到 CPU。這樣做的目的是節省 GPU 的記憶體資源，特別是在模型不需要時，減少對 GPU 記憶體的佔用。同時，當模型需要再次使用時，它會從 CPU 重新加載到 GPU 上。
--share: 對外開放你的連結

其中 <name> 要代入模型的名稱，範例如下，

python demo_gr.py --name flux-schnell --device cuda --prompt "a girl"

Hallo AI：讓照片動起來，結合語音技術的革命性數字人類

by Rain Chu | 6 月 27, 2024 | AI, 人臉辨識, 影片製作, 語音合成

Fusion Lab 又有新款力作，Hallo AI 可以讓用戶僅需提供一張照片和一段語音，就能讓照片中的人物進行說話、唱歌甚至進行動作，為數字內容創作帶來了革命性的突破。

主要功能介紹：

語音動畫同步：用戶只需上傳一張照片及一段WAV格式的英語語音，Hallo AI就能使照片中的人物按語音內容進行動作，包括說話和唱歌。
動作自然流暢：結合精確的面部識別和動作捕捉技術，保證人物動作的自然流暢，令人印象深刻。

技術框架：

音頻處理：使用Kim_Vocal_2 MDX-Net的vocal removal模型分離語音。
面部分析：透過insightface進行2D和3D的臉部分析。
面部標記：利用mediapipe的面部檢測和mesh模型進行精確標記。
動作模組：AnimateDiff的動作模組為動作生成提供支持。
影像生成：StableDiffusion V1.5和sd-vae-ft-mse模型協同工作，用於生成和調整圖像細節。
聲音向量化：Facebook的wav2vec模型將WAV音頻轉換為向量數據。

安裝方法

盡量採用 Linux 平台，我這邊測試成功的有 Ubuntu 20 WSL 版本，就可以簡單三個步驟，部過前提要記得先安裝好 WSL CUDA 支援

1.建立虛擬環境

  conda create -n hallo python=3.10
  conda activate hallo

2.安裝相關的依賴

  pip install -r requirements.txt
  pip install .

3.要有 ffmpeg 支援

  apt-get install ffmpeg

4.測試與驗證

python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav

參考資料

探索視覺新境界：Luma AI Dream Machine帶來的AI動畫革命

如何用LeiaPix將你的照片轉變為迷人的3D動畫

音樂的新世紀：人工智慧與音樂生成(Music Gen)

by Rain Chu | 7 月 16, 2023 | 音樂

又是 Facebook(Meta)，在AI上的研究不落人後，隨著人工智慧的快速發展，音樂生成的領域也正在經歷革命性的變革。本文將深入探討這一技術的演進，揭示如何應用各種的AI工具來創造音樂

試試現成的服務

描述一下你想要的音樂類型、場景

https://waveformer.replicate.dev/

Facebook 開發程式碼

https://github.com/facebookresearch/audiocraft

Music Gen 與其他三個比較、MusicLM、Riffusion、Musai

https://ai.honu.io/papers/musicgen/

Music Gen 論文

https://arxiv.org/abs/2306.05284

免費可以測試用的 huggingface 服務

https://huggingface.co/spaces/facebook/MusicGen

用 Google Colab 來做測試

https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing