by Rain Chu | 11 月 6, 2024 | Agent, AI
繼之前提到的 Ahthropic Computer Use ,那時候超級驚豔的,馬上就看到MS也有推出自己的版本,雖然沒有自動執行功能,但可以配合 pyautogui 達成,雖然不支援中文,但可以透過中文OCR 或是 tesseract 處理
安裝到本地端
先建立一個虛擬環境起來
conda create -n omni python=3.12 -y && conda activate omni
選項:有GPU的,先把CUDA安裝起來
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
整個安裝也很簡單,就五個步驟
git clone https://github.com/microsoft/OmniParser.git && cd OmniParser
pip install -r requirements.txt
huggingface-cli download --repo-type model microsoft/OmniParser --local-dir weights --include "icon_detect/*" "icon_caption_blip2/*" "icon_caption_florence/*"
python /home/Ubuntu/OmniParser/weights/convert_safetensor_to_pt.py
python gradio_demo.py
相關資源
OmniParser 原始碼
OmniParser 官網
OmniParser 模型
https://blog.stoeng.site/20241030.html
by Rain Chu | 10 月 20, 2024 | AI, Chat, 語音合成
by rainchu | 8 月 29, 2024 | AI, 繪圖
免費使用 Flux AI 的方法
- Huggingface
- Seaart
- Glif
- FluxPro
在自己的電腦中使用 Flux AI
採用 flux pro api
API 文件
在自己的電腦安裝
Flux 建議用 Pyhton 3.10 ,可以去 GitHub 下載並且安裝,但只能使用 dev (開發版) 和 Schnell (速度版)
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e ".[all]"
模型連結如下
FLUX 1 schnell
FLUX 1 Dev
安裝好模型和程式後,設定如下
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>
使用的方法有兩種,一個是開啟交互介面
python -m flux --name <name> --loop
另一個是直接在 CLI 介面上產圖
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"
參數說明
--name
: 模型名稱 “flux-schnell”, “flux-dev”)
--device
: 用CPU還是GPU運算 (default: “cuda” if available, otherwise “cpu”)
--offload
: 模型未被使用時,將其從 GPU 卸載到 CPU。這樣做的目的是節省 GPU 的記憶體資源,特別是在模型不需要時,減少對 GPU 記憶體的佔用。同時,當模型需要再次使用時,它會從 CPU 重新加載到 GPU 上。
--share
: 對外開放你的連結
其中 <name> 要代入模型的名稱,範例如下,
python demo_gr.py --name flux-schnell --device cuda --prompt "a girl"
by Rain Chu | 6 月 27, 2024 | AI, 人臉辨識, 影片製作, 語音合成
Fusion Lab 又有新款力作,Hallo AI 可以讓用戶僅需提供一張照片和一段語音,就能讓照片中的人物進行說話、唱歌甚至進行動作,為數字內容創作帶來了革命性的突破。
主要功能介紹:
- 語音動畫同步:用戶只需上傳一張照片及一段WAV格式的英語語音,Hallo AI就能使照片中的人物按語音內容進行動作,包括說話和唱歌。
- 動作自然流暢:結合精確的面部識別和動作捕捉技術,保證人物動作的自然流暢,令人印象深刻。
技術框架:
- 音頻處理:使用Kim_Vocal_2 MDX-Net的vocal removal模型分離語音。
- 面部分析:透過insightface進行2D和3D的臉部分析。
- 面部標記:利用mediapipe的面部檢測和mesh模型進行精確標記。
- 動作模組:AnimateDiff的動作模組為動作生成提供支持。
- 影像生成:StableDiffusion V1.5和sd-vae-ft-mse模型協同工作,用於生成和調整圖像細節。
- 聲音向量化:Facebook的wav2vec模型將WAV音頻轉換為向量數據。
安裝方法
盡量採用 Linux 平台,我這邊測試成功的有 Ubuntu 20 WSL 版本,就可以簡單三個步驟,部過前提要記得先安裝好 WSL CUDA 支援
1.建立虛擬環境
conda create -n hallo python=3.10
conda activate hallo
2.安裝相關的依賴
pip install -r requirements.txt
pip install .
3.要有 ffmpeg 支援
4.測試與驗證
python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav
最近更新:
- 在🤗Huggingface空間克隆了一個Gradio演示。
- 新增Windows版本、ComfyUI界面、WebUI和Docker模板。
參考資料
Hallo GitHub
Hallo Model
大神開發的Windows介面
Hallo 線上版本
Hallo Docker版
影片跳舞合成
by Rain Chu | 7 月 16, 2023 | 音樂
又是 Facebook(Meta),在AI上的研究不落人後,隨著人工智慧的快速發展,音樂生成的領域也正在經歷革命性的變革。本文將深入探討這一技術的演進,揭示如何應用各種的AI工具來創造音樂
試試現成的服務
描述一下你想要的音樂類型、場景
https://waveformer.replicate.dev/
Facebook 開發程式碼
https://github.com/facebookresearch/audiocraft
Music Gen 與其他三個比較、MusicLM、Riffusion、Musai
https://ai.honu.io/papers/musicgen/
Music Gen 論文
https://arxiv.org/abs/2306.05284
免費可以測試用的 huggingface 服務
https://huggingface.co/spaces/facebook/MusicGen
用 Google Colab 來做測試
https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing
延伸閱讀
近期留言