by Rain Chu | 1 月 1, 2025 | AI , 影片製作
Pollo AI 可以讓用戶從文字提示、圖片或現有影片中創建超高品質的影片,支援多種影片風格,從真實的電影場景到富有想像力的動畫,滿足不同的創作需求。其快速的影片生成演算法,讓用戶能在短短幾分鐘內獲得高清、專業級的影片輸出,此外,Pollo AI還提供多樣的模板,如AI擁抱影片生成器,方便用戶輕鬆創作溫馨感人的影片
Pollo AI homepage,文字生圖
支援 40多種 AI 影片特效,使得任何事物或人物都能在影片中“活”起來,例如
擠壓特效 :讓照片中的主體如同麵團或橡皮泥般被擠壓變形,呈現出趣味十足的動態效果,適合在社交媒體上分享。
膨脹特效 :使物體、人物或動物如氣球般膨脹,隨後飄走或爆裂,創作出搞笑短片,流暢自然的動畫效果有望成為病毒式影片。
爆炸特效 :讓畫面中的主體以誇張且滑稽的方式“炸裂”,天馬行空的創意為觀眾帶來歡樂。
融化特效 :將靜態圖像轉化為動態影片,讓畫面中的主體如巧克力般慢慢融化,效果逼真,只需簡單的三步操作即可完成。
Pollo AI 特效以及影片樣版庫
VIDEO
首尾偵功能
Pollo AI還引入了首尾偵功能 ,使影片的開頭和結尾更加引人注目。用戶可以選擇多種動畫效果,為影片增添專業的開場和結尾,提升整體質感。這項功能特別適合用於宣傳影片、教學影片或任何需要強調開頭和結尾的影片類型。
Pollo AI Image to Video 功能,首尾禎產影片功能
三張圖片合成功能
Pollo AI的三張圖片合成功能 允許用戶上傳最多三張圖片,並生成一個角色或場景在影片中保持統一外觀的影片,這項功能確保影片中的角色或物體在每一幀中都保持一致的外觀和風格,適合需要連貫性角色動畫的影片創作。用戶可以上傳一至三張圖片,設定影片的長度、解析度和移動幅度,Pollo AI將自動生成符合要求的影片。
參考資訊
by rainchu | 12 月 27, 2024 | AI , 人臉辨識 , 圖型處理 , 繪圖
MBG-2-Studio 是一款基於 BRIA-RMBG-2.0 模型開發的開源應用程式,專門用於高效地移除和替換圖像背景,提供了背景移除、圖像合成、顏色分級和批次處理,可以用於電子商務、廣告製作、遊戲開發等多種場景。
主要功能:
背景移除 :利用先進的 AI 技術,精確分離前景與背景,達到高精度的背景去除效果。
拖放圖庫 :用戶可以直接從圖庫中拖放處理後的圖像,進行背景替換和顏色調整。
圖像合成 :將處理後的圖像放置在新的背景上,並進行位置和大小的調整,以實現自然的合成效果。
顏色分級 :調整圖像的亮度、對比度、飽和度、色溫和色調,提升圖像質量。
批次處理 :一次性處理多張圖像,提高工作效率,適合需要大量處理的用戶。
URL 支援 :直接從 URL 加載圖像進行處理,方便處理線上圖片。
使用指南:
使用 node js 安裝
安裝 :從 GitHub 頁面下載最新版本的安裝包,解壓後運行 install.js
進行安裝。
啟動 :安裝完成後,運行 start.js
啟動應用程式。
背景移除 :在「背景移除」標籤下,將需要處理的圖像拖放到指定區域,應用程式會自動進行背景移除。
圖像合成 :在「合成工作區」標籤下,從圖庫中拖放處理後的圖像到合成區域,調整位置和大小,選擇新的背景,並使用顏色分級工具進行調整。
使用 pip 安裝
安裝: 到 app 目錄下,執行 pip install -r requirements.txt
啟動: 執行 app\app.py
相關資源:
GitHub 頁面
by rainchu | 12 月 24, 2024 | AI , Chat
Jan AI 是一款完全開源且支援多種平台(Windows, Linux, Mac)的人工智慧聊天助手,類似 ChatGPT 的功能,但可完全離線運行於使用者內部的電腦上。
主要特色:
離線運行 :Jan 支援多種 AI 模型,如 Llama3、Gemma 或 Mistral,使用者可直接在本地端下載並運行這些模型,確保資料隱私。
模型中心 :提供多樣化的模型選擇,使用者可根據需求下載並運行不同的 AI 模型。
雲端 AI 連接 :在需要時,Jan 也能連接至更強大的雲端模型,如 OpenAI、Groq、Cohere 等,提供更高效的運算能力。
本地 API 伺服器 :使用者可一鍵設置並運行與 OpenAI 相容的 API 伺服器,利用本地模型提供服務。
文件互動 :實驗性功能,允許使用者與本地文件進行互動,提升工作效率。
開源與自訂化:
Jan 完全開源,使用者可根據個人需求進行自訂,並透過第三方擴充功能(Extensions)來增強系統功能,如雲端 AI 連接器、工具和資料連接器等。
隱私與資料擁有權:
Jan 強調使用者資料的隱私與擁有權,所有資料皆儲存在本地,並以通用格式保存,確保使用者對自身資料的完全控制。
下載與社群:
Jan 已在 GitHub 上獲得超過 2.4 萬顆星,並持續更新與改進。
相關資訊
by rainchu | 12 月 19, 2024 | AI , 影片製作 , 語音合成 , 音樂
MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。
主要特色:
多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。
適用場景:
影片配音: 自動為無聲 影片生成對應的音訊,提升影片的可觀賞性。
虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。
技術原理:
MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。
使用方法:
MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。
已知限制:
目前,MMAudio 存在以下限制:
有時會生成不清晰的語音或背景音樂。
對某些陌生概念的處理不夠理想。
相關資源:
by rainchu | 12 月 3, 2024 | AI , 圖型處理
TryOffDiff :開創虛擬脫衣的新方向
在電子商務與生成式模型的發展中,虛擬試穿(Virtual Try-On, VTON)技術早已佔據重要一席之地,讓用戶能在數位環境中模擬穿戴效果,但一項新興的任務——虛擬脫衣(Virtual Try-Off, VTOFF)正在改變我們對電子商務中的服裝數位化處理的理解。
什麼是 VTOFF?
虛擬脫衣(VTOFF)是可以從穿著者的單張照片中提取標準化的服裝影像,而不是僅僅模擬服裝穿著的效果,最大的好處是幫助你快速分離模特兒身上的衣服,VTOFF 的挑戰在於,如何準確捕捉服裝的形狀、材質與細節紋理,同時去除穿著者的影響,生成一個純粹且高還原度的服裝影像。
這項任務的核心價值在於:
提供標準化的服裝圖像,有助於電子商務中的產品展示。
評估生成式模型的重建能力,成為模型研究與改進的重要工具。
試用 VTOFF
TryOffDiff:專為 VTOFF 打造的生成模型
針對 VTOFF 的挑戰,TryOffDiff 模型應運而生。這是一種基於 Stable Diffusion 的生成架構,結合了 SigLIP 視覺條件技術,確保高還原度與細節保留。與傳統的虛擬試穿和姿態轉移技術相比,TryOffDiff 擁有以下優勢:
重建品質卓越 :TryOffDiff 在處理服裝紋理、複雜細節以及準確的形狀表現上表現突出。
簡化處理流程 :不需要繁瑣的前處理與後處理步驟,顯著提高效率。
改進的評估方法 :傳統影像生成指標難以準確衡量重建品質,TryOffDiff 使用 DISTS(Deep Image Structure and Texture Similarity) 作為評估標準,提供更可靠的結果分析。
實驗成果與應用前景
TryOffDiff 的實驗基於改進版的 VITON-HD 資料集進行,結果顯示其重建表現超越現有基準方法。特別是在以下領域:
電子商務 :幫助商家輕鬆生成標準化產品影像,提升顧客的購物體驗。
生成式模型評估 :作為生成模型評估的重要參考,推動更高還原度的技術研究。
未來發展 :激發針對高品質影像重建的新技術創新。
參考資料
by rainchu | 12 月 3, 2024 | AI , 人臉辨識
完全開源的 AI 換臉工具,也提供了預先編譯好的程式碼,只需要簡單的三個步驟
有支援多人臉的尋找以及合成,合成的效果還不錯,只是訓練的時間有點久
近期留言