Select Page
音樂的新世紀:人工智慧與音樂生成(Music Gen)

音樂的新世紀:人工智慧與音樂生成(Music Gen)

又是 Facebook(Meta),在AI上的研究不落人後,隨著人工智慧的快速發展,音樂生成的領域也正在經歷革命性的變革。本文將深入探討這一技術的演進,揭示如何應用各種的AI工具來創造音樂

試試現成的服務

描述一下你想要的音樂類型、場景

https://waveformer.replicate.dev/

Facebook 開發程式碼

https://github.com/facebookresearch/audiocraft

Music Gen 與其他三個比較、MusicLM、Riffusion、Musai

https://ai.honu.io/papers/musicgen/

Music Gen 論文

https://arxiv.org/abs/2306.05284

免費可以測試用的 huggingface 服務

https://huggingface.co/spaces/facebook/MusicGen

用 Google Colab 來做測試

https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing

延伸閱讀

開發 ChatGPT 的兩種方法

開發 ChatGPT 的兩種方法

ChatGPT 一開始出來的時候還沒有開放 API 的時候,就有很多人用 Session key 的方法去使用他的服務,到現在雖然說用官方的 OpenAPI 已經很強大了,但缺點是 ChatGPT 永遠比較新,像是剛出來 ChatGPT 4 的時候,就沒有 API 可以用,都要等好幾個月,這時候只能使用 Session key 的方法去存取服務,這個方法可以採用 revChatGPT

revChatGPT 的三種安裝方法

原始碼下載:

https://github.com/acheong08/ChatGPT

Pip 安裝

https://pypi.org/project/revChatGPT/

只要打下面的指令就可以安裝

python -m pip install --upgrade revChatGPT

revChatGPT 的使用方法

免費使用要用 V1 ,免費版本會有些限制,目前的限制如下

  • Proxy server: 5 requests / 10 seconds
  • OpenAI: 50 requests / hour for each account

採用登入方法,要去 config.json 中填入你的帳號和密碼

{
  "email": "email",
  "password": "your password"
}

採用 Session Key 的方法,要去你的瀏覽器中,找到你的 Key 並且回填,但這種方法,一旦你登出後就要重新來過,只有自己一個人使用的時候可以用,比較不推薦,使用方法,先點下面的連結

https://chat.openai.com/api/auth/session

找到 accessToken 後面的文字,複製後取代 <access_token> 即可

{
  "access_token": "<access_token>"
}

設定完成後可以建立一個 Python 檔案,測試一下

from revChatGPT.V1 import Chatbot
chatbot = Chatbot(config={
  "access_token": "<your access_token>"
})
print("Chatbot: ")
prev_text = ""
for data in chatbot.ask(
    "請給我10個拯救地球的好主意",
):
    message = data["message"][len(prev_text) :]
    print(message, end="", flush=True)
    prev_text = data["message"]
print()

OpenAI 官方 Python API

這邊網路教學很多,而且常常在改,我就放一個教學,可以直接去看一下

照片、相片、2D影像轉換成3D模型

照片、相片、2D影像轉換成3D模型

3D Scanner是個很昂貴且複雜難使用的工具,隨著現在算法的精進,AI的流行,各式各樣的工具不斷的出現,早期我還有買一個專用的3D掃描器,現在發現我用手機拍的照片,用AI轉換比我用專業工具掃描的還方便且快速,並且已是用了不少網站服務,是用了不少網站服務,多數還是要費用且還不好用,但 Nvidia 不愧是AI的王者,推出好用且免費還開放原始碼的 NeRF ,入門還算簡單,看下面兩個影片就夠了。

Instant NeRF

下載請到 NVlabs/instant-ngp: Instant neural graphics primitives: lightning fast NeRF and more (github.com)

如果你是 Windows 系統,可以依照下圖,找到適合自己GPU的可執行檔

如果不是的話,就要自己 git 後按照步驟安裝,我自己安裝起來是還蠻麻煩的,建議是找台 Windows 會比較快

PIFuHD

專門用在人物轉3D模型的開源軟體,主要是 FB AI Research 在維護

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (shunsukesaito.github.io)

PIFuHD Demo – Colaboratory (google.com)

Meshroom 2023

更開放且進階的 Meshroom 3D 建模軟體

Github 原始碼

alicevision/Meshroom: 3D Reconstruction Software (github.com)

直接下載執行檔

Releases · alicevision/Meshroom (github.com)

ZoeDepht

ZoeDepth可以找出圖片中的深度圖,也可以一鍵建立3D模型以及一鍵建立360的圖片,蠻適合用在室內設計的場景中

ZoeDepth – a Hugging Face Space by shariqfarooq

Kaedim3d

Kaedim | 3D models in minutes (kaedim3d.com)

付費軟體,優點是容易使用,專門在產生一些小物件,尤其是可以給遊戲使用

https://www.app.kaedim3d.com/

參考資料

Turn 2D Images into Immersive 3D Scenes with NVIDIA Instant NeRF in VR | NVIDIA Technical Blog

即時NeRF贏得SIGGRAPH最佳論文,激勵創作者 |英偉達博客 (nvidia.com)

Getting Started with NVIDIA Instant NeRFs | NVIDIA Technical Blog

Knight Rider Rides a GAN with AI, NVIDIA Omniverse | NVIDIA Blog

NVIDIA 發表 GANcraft ,可將 Minecraft 地圖轉化為 3A 遊戲等級場景 #我的世界 (173603) – Cool3c

Stable Diffusion 核心套件更新整理

Stable Diffusion 核心套件更新整理

Stable Diffusion 最近太火紅,是好處也是壞處,好處是更新的速度超快,也代表進步的超快,壞處是每次更新,都需要工程師介入居多,複雜的設定,難懂的語言(只有工程師能懂),都阻礙著更新的進步,這邊用白話文分享如何更新關鍵資源

torch 1.13.1 -> torch 2.0.0

當你跑 run.bat 的時候會出現以下訊息,告訴你應該要申請 torch 了,升級的方法是在執行 webui.bat 的時候,加入 –reinstall-torch,觸發程式去更新 torch

也可以在 lauch.py 中修改 COMMANDLINE_ARGS 加入 –reinstall-torch

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS=--reinstall-torch

call webui.bat

重新執行 run.bat 後就會看到開始更新了

更新 xformers

更新 xformers 與更新 torch 類似

我們一樣修改 COMMANDLINE_ARGS 加入 –reinstall-xformers ,然後重新執行 run.bat ,就會啟動更新程序

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS=--reinstall-xformers

call webui.bat

更新後的錯誤處理方法

若是更新後啟動失敗,通常是沒 Torch 無法使用 GPU ,那就要加入指令 COMMANDLINE_ARGS=–skip-torch-cuda-test

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS=--skip-torch-cuda-test

call webui.bat

AI-繪圖總整理-StableDiffusion – 雨 (rain.tips)

Midijourney 的創業故事

Midijourney 的創業故事

Midijourney 最近推出了V5,比較之前的模型,更多了寫實的風格,不變的是一樣好用和美,繪圖能力出色是它們最大的特點,也讓我對他們後面的創業故事非常的感興趣,員工多少人?創業動機?能賺多少錢?

Midjourney Emblem.png

創業動機,人類想像力的延伸

創辦人大衛·霍爾茨,原先他是我一直很愛用的一個工具 Leap Motion 的創辦人,後來將公司賣給了 Ultrahaptics 之後就創立了 Midijourney ,公司總共11人

  • 1創辦人
  • 8 RD
  • 1 法務
  • 1 財務

2022-2023年營收卻可以超過1億美元

技術能力的抉擇

因為創辦人之前的背景,所以覺得他要的解決人與機器間的互動問題,並且快速地推出市場,所以做了幾個關鍵性的決定

  • 不用APP,不用網頁,直接在Discord上建立機器人,也符合 AI 的特色,有一個機器人為你服務
  • 封閉技術,技術不開源,讓別人有付費的理由
  • 與對手(Stable Diffusion)相比,進入門檻很低,不用建立伺服器
  • 大模型,利用八個不同時區的夜晚差別訂價以及效能,來解決算力難題
  • 專注在改善使用者的溝通介面,不斷優化跟使用者的互動方式

商業模式-推出第一年賺1億美金

免費讓人使用,但算力慢,還要常常跟別人搶資源和公開自己的畫作,付每月的訂閱費用就有感升級,2023年初就已經累積了1000多萬的用戶,憑藉著超美的 AI 做圖

參考資料

https://www.bnext.com.tw/article/75000/midjourney-ai-davidholz

AI-繪圖總整理-StableDiffusion – 雨 (rain.tips)