by Rain Chu | 2 月 23, 2025 | AI , 程式開發
OpenRouter 是一個統一的大型語言模型(LLM)API 服務平台,可以讓使用者透過單一介面訪問多種大型語言模型。
主要特點:
多模型支援: OpenRouter 集成了多種預訓練模型,如 GPT-4、Gemini、Claude、DALL-E 等,按需求選擇適合的模型。
易於集成: 提供統一的 API 介面,方便與現有系統整合,無需自行部署和維護模型。
成本效益: 透過 API 調用,使用者無需購買昂貴的 GPU 伺服器,降低了硬體成本。
使用方法:
註冊帳號: 使用 Google 帳號即可快速註冊 OpenRouter。
選擇模型: 在平台上瀏覽並選擇適合的模型,部分模型提供免費使用。
調用 API: 使用統一的 API 介面,將選定的模型整合到您的應用中。
Cline 整合
OpenRouter 與 Cline 的整合為開發者提供了強大的 AI 編程體驗,Cline 是一款集成於 VSCode 的 AI 編程助手,支援多種大型語言模型(LLM),如 OpenAI、Anthropic、Mistral 等,透過 OpenRouter,Cline 能夠統一調用這些模型,簡化了不同模型之間的切換和管理,使用者只需在 Cline 的設定中選擇 OpenRouter 作為 API 提供者,並輸入相應的 API 金鑰,即可開始使用多種模型進行開發。這種整合不僅提升了開發效率,還降低了使用多模型的技術門檻。
DeepSeek R1
OpenRouter 現在也支援 DeepSeek R1 模型,DeepSeek R1 是一款高性能的開源 AI 推理模型,具有強大的數學、編程和自然語言推理能力。透過 OpenRouter,開發者可以在 Cline 中輕鬆調用 DeepSeek R1 模型,享受其強大的推理能力。這進一步豐富了開發者的工具選擇,讓他們能夠根據項目需求選擇最適合的模型。
by Rain Chu | 2 月 3, 2025 | AI , Stable Diffusion , 繪圖
AMD於2024年7月推出了Amuse 2.0 Beta版本,這是一款專為AMD平台設計的AI創作工具,替 AMD CPU、GPU的用戶提供更簡便的AI圖像生成體驗。
主要特色:
AMD XDNA超分辨率技術 :該技術可在圖像生成結束時,將輸出尺寸提高兩倍。例如,將512×512像素的圖像放大至1024×1024像素,提升圖像細節和清晰度。
多樣化的AI功能 :Amuse 2.0提供了繪畫和草圖圖像轉換、可自定義AI濾鏡,以及基於ONNX的多階段管線等功能,滿足不同創作需求。
「容易模式」(Ez Mode) :即使用戶沒有專業的AI知識,也能透過此模式輕鬆上手,享受AI創作的樂趣。
硬體支援:
Amuse 2.0 的推薦配置包括:
配備24GB或以上記憶體的Ryzen AI 300系列處理器。
配備32GB記憶體的Ryzen 8040系列處理器(需更新至最新的OEM MCDM和NPU驅動)。
Radeon RX 7000系列顯示卡。
目前只有Ryzen AI 300系列和更新驅動後的Ryzen 8000系列處理器支援AMD XDNA超分辨率技術。
安裝與使用:
到官網去下載 Amuse 2.0為單一可執行(EXE)檔案,無需額外的相依性,安裝過程簡單。首次啟動時,系統會自動偵測硬體配置,並自動設定最佳化參數。建議初次使用者選擇「平衡」設定,以在性能和品質之間取得良好平衡。
by Rain Chu | 1 月 1, 2025 | AI , 影片製作
Pollo AI 可以讓用戶從文字提示、圖片或現有影片中創建超高品質的影片,支援多種影片風格,從真實的電影場景到富有想像力的動畫,滿足不同的創作需求。其快速的影片生成演算法,讓用戶能在短短幾分鐘內獲得高清、專業級的影片輸出,此外,Pollo AI還提供多樣的模板,如AI擁抱影片生成器,方便用戶輕鬆創作溫馨感人的影片
Pollo AI homepage,文字生圖
支援 40多種 AI 影片特效,使得任何事物或人物都能在影片中“活”起來,例如
擠壓特效 :讓照片中的主體如同麵團或橡皮泥般被擠壓變形,呈現出趣味十足的動態效果,適合在社交媒體上分享。
膨脹特效 :使物體、人物或動物如氣球般膨脹,隨後飄走或爆裂,創作出搞笑短片,流暢自然的動畫效果有望成為病毒式影片。
爆炸特效 :讓畫面中的主體以誇張且滑稽的方式“炸裂”,天馬行空的創意為觀眾帶來歡樂。
融化特效 :將靜態圖像轉化為動態影片,讓畫面中的主體如巧克力般慢慢融化,效果逼真,只需簡單的三步操作即可完成。
Pollo AI 特效以及影片樣版庫
VIDEO
首尾偵功能
Pollo AI還引入了首尾偵功能 ,使影片的開頭和結尾更加引人注目。用戶可以選擇多種動畫效果,為影片增添專業的開場和結尾,提升整體質感。這項功能特別適合用於宣傳影片、教學影片或任何需要強調開頭和結尾的影片類型。
Pollo AI Image to Video 功能,首尾禎產影片功能
三張圖片合成功能
Pollo AI的三張圖片合成功能 允許用戶上傳最多三張圖片,並生成一個角色或場景在影片中保持統一外觀的影片,這項功能確保影片中的角色或物體在每一幀中都保持一致的外觀和風格,適合需要連貫性角色動畫的影片創作。用戶可以上傳一至三張圖片,設定影片的長度、解析度和移動幅度,Pollo AI將自動生成符合要求的影片。
參考資訊
by rainchu | 12 月 27, 2024 | AI , 人臉辨識 , 圖型處理 , 繪圖
MBG-2-Studio 是一款基於 BRIA-RMBG-2.0 模型開發的開源應用程式,專門用於高效地移除和替換圖像背景,提供了背景移除、圖像合成、顏色分級和批次處理,可以用於電子商務、廣告製作、遊戲開發等多種場景。
主要功能:
背景移除 :利用先進的 AI 技術,精確分離前景與背景,達到高精度的背景去除效果。
拖放圖庫 :用戶可以直接從圖庫中拖放處理後的圖像,進行背景替換和顏色調整。
圖像合成 :將處理後的圖像放置在新的背景上,並進行位置和大小的調整,以實現自然的合成效果。
顏色分級 :調整圖像的亮度、對比度、飽和度、色溫和色調,提升圖像質量。
批次處理 :一次性處理多張圖像,提高工作效率,適合需要大量處理的用戶。
URL 支援 :直接從 URL 加載圖像進行處理,方便處理線上圖片。
使用指南:
使用 node js 安裝
安裝 :從 GitHub 頁面下載最新版本的安裝包,解壓後運行 install.js 進行安裝。
啟動 :安裝完成後,運行 start.js 啟動應用程式。
背景移除 :在「背景移除」標籤下,將需要處理的圖像拖放到指定區域,應用程式會自動進行背景移除。
圖像合成 :在「合成工作區」標籤下,從圖庫中拖放處理後的圖像到合成區域,調整位置和大小,選擇新的背景,並使用顏色分級工具進行調整。
使用 pip 安裝
安裝: 到 app 目錄下,執行 pip install -r requirements.txt
啟動: 執行 app\app.py
相關資源:
GitHub 頁面
by rainchu | 12 月 24, 2024 | AI , Chat
Jan AI 是一款完全開源且支援多種平台(Windows, Linux, Mac)的人工智慧聊天助手,類似 ChatGPT 的功能,但可完全離線運行於使用者內部的電腦上。
主要特色:
離線運行 :Jan 支援多種 AI 模型,如 Llama3、Gemma 或 Mistral,使用者可直接在本地端下載並運行這些模型,確保資料隱私。
模型中心 :提供多樣化的模型選擇,使用者可根據需求下載並運行不同的 AI 模型。
雲端 AI 連接 :在需要時,Jan 也能連接至更強大的雲端模型,如 OpenAI、Groq、Cohere 等,提供更高效的運算能力。
本地 API 伺服器 :使用者可一鍵設置並運行與 OpenAI 相容的 API 伺服器,利用本地模型提供服務。
文件互動 :實驗性功能,允許使用者與本地文件進行互動,提升工作效率。
開源與自訂化:
Jan 完全開源,使用者可根據個人需求進行自訂,並透過第三方擴充功能(Extensions)來增強系統功能,如雲端 AI 連接器、工具和資料連接器等。
隱私與資料擁有權:
Jan 強調使用者資料的隱私與擁有權,所有資料皆儲存在本地,並以通用格式保存,確保使用者對自身資料的完全控制。
下載與社群:
Jan 已在 GitHub 上獲得超過 2.4 萬顆星,並持續更新與改進。
相關資訊
by rainchu | 12 月 19, 2024 | AI , 影片製作 , 語音合成 , 音樂
MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。
主要特色:
多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。
適用場景:
影片配音: 自動為無聲 影片生成對應的音訊,提升影片的可觀賞性。
虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。
技術原理:
MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。
使用方法:
MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。
已知限制:
目前,MMAudio 存在以下限制:
有時會生成不清晰的語音或背景音樂。
對某些陌生概念的處理不夠理想。
相關資源:
近期留言