深度學習彙整

MMAudio：自動為影片生成同步音訊的開源解決方案

by rainchu | 12 月 19, 2024 | AI, 影片製作, 語音合成, 音樂

MMAudio 是一款開源的多模態影片轉音訊工具，透過多模態聯合訓練技術，可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發，適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色：

多模態聯合訓練： MMAudio 採用多模態聯合訓練方法，能夠同時處理影片和文字輸入，生成與內容同步的音訊。
高品質音訊合成： 透過先進的模型架構，MMAudio 能夠生成高品質且自然的音訊，適用於各類應用場景。
同步模組： MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配，實現高度同步。

適用場景：

影片配音： 自動為無聲影片生成對應的音訊，提升影片的可觀賞性。
虛擬角色語音生成： 為虛擬角色生成符合其動作和表情的語音，增強互動性。
多媒體內容創作： 協助創作者快速為視覺內容添加音訊，豐富作品表現力。

技術原理：

MMAudio 基於深度學習技術，特別是神經網路，理解和生成音訊資料。模型能夠處理影片和文字輸入，透過深度學習網路提取特徵，進行音訊合成。在訓練時，模型考慮音訊、影片和文字資料，使生成的音訊能夠與影片和文字內容相匹配。透過同步模組，確保音訊輸出與影片畫面或文字描述的時間軸完全對應，實現同步。

使用方法：

MMAudio 提供命令列介面和 Gradio 介面，使用者可以根據需求選擇使用。在命令列中，使用者可以透過指定影片路徑和文字提示，生成對應的音訊。Gradio 介面則提供了更友善的使用者介面，支援影片到音訊和文字到音訊的合成。

已知限制：

目前，MMAudio 存在以下限制：

有時會生成不清晰的語音或背景音樂。
對某些陌生概念的處理不夠理想。

Whisper – OpenAI 的開源文字轉語音

by Rain Chu | 3 月 24, 2024 | AI, 語音辨識

Whisper 是一種由 OpenAI 開發的先進語音識別系統，Whisper 的獨特之處在於其能夠處理多種語言和方言，以及在各種噪音環境下保持高水準的準確率。這一技術的開發代表了語音識別領域的一個重要進步，為多種應用場景提供了強大的支持，從自動字幕生成到語音指令的處理，再到多語言溝通的促進。

Large 3 更新

2023年末的更新版本，Large 3，來到了3.1GB，測試後，中文的理解能力已經來到了大學生等級，相當的實用，但也相當吃硬體資源

Whisper JAX

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

如果不想安裝，只想立即使用的話，可以先點選線上版本的，直接可以測試他的效果如何，再來想應用或是考慮是否要在本地端架設一套起來

技術背景

Whisper 基於深度學習模型，特別是利用了大規模語音數據集來訓練其識別算法。這使得 Whisper 不僅能夠識別標準發音的話語，還能識別口音、方言以及非正式或口語化的表達。OpenAI 通過分析大量的語音數據，使 Whisper 能夠理解和處理語速變化、背景噪音干擾以及講話者間的交談。

功能與應用

Whisper 的應用範圍廣泛，從提高輔助聽力設備的性能到增強虛擬助理的理解能力，再到改善自動翻譯系統的質量。在教育領域，它可以幫助創建更加無障礙的學習材料，為聽障學生提供即時字幕。在媒體行業，Whisper 可以用於自動生成新聞報導或視頻內容的字幕，大大提高生產效率並擴大觀眾範圍。

性能與準確性

OpenAI 對 Whisper 的測試表明，其在多種語言和口音的識別上達到了極高的準確性。此外，Whisper 能夠辨識並適當處理專有名詞、術語以及其他複雜的語言結構。這種高水平的準確性不僅對於提供質量高的轉錄服務至關重要，也是使語音交互系統更加可靠和實用的關鍵。

下載資源

OpenAI Whisper

編譯好可以直接使用的程式

CPU版本Whisper，Buzz 適合沒有GPU的情景使用

文章內整理了編譯版本，可以離線下載使用

從訪談到文字：Good Tape 改寫新聞記者的工作流程

AI Tools – AI工具大全(總整理)

如何用LeiaPix將你的照片轉變為迷人的3D動畫

by Rain Chu | 3 月 3, 2024 | AI, 繪圖

LeiaPix是一款創新的科技產品，它利用先進的人工智能技術將平面圖片轉換成3D動畫，為用戶提供了全新的視覺體驗。這項技術尤其擅長處理人物照片，能夠將靜態的2D影像轉化成仿佛跳躍出畫面的3D動態畫面，讓照片中的人物顯得更加生動、立體。

LeiaPix的工作原理是通過深度學習算法分析2D圖像中的視覺信息，如顏色、形狀、紋理等元素，並推測出圖像背後的3D結構。這包括對圖像中人物的姿態、面部表情以及與背景的相對位置進行精確解析。接著，AI利用這些信息構建出一個3D模型，並將其動畫化，使圖像中的人物仿佛被賦予了生命。

一個重要的特點是LeiaPix的用戶界面非常友好，不需要專業的3D建模技能，用戶只需上傳一張平面照片，剩下的工作就交給AI來完成。這使得任何人都能輕鬆地將自己的照片轉換成3D動畫，無論是用於社交媒體分享、個人收藏，還是作為創意項目的一部分。

此外，LeiaPix的應用範圍非常廣泛，它不僅可以用於人物照片的轉換，也適用於風景、物品等其他類型的圖片。這意味著用戶可以將任何記憶中的瞬間轉換成3D動畫，增加了與照片互動的趣味性和沉浸感。

在商業應用方面，LeiaPix也展現出巨大的潛力。例如，它可以用於廣告創意的製作，通過3D動畫吸引更多的目光；或者在電子商務中，將商品照片轉化成3D動畫，提供給消費者更直观的商品展示。

一鍵去除水印：體驗WatermarkRemover AI的強大功能

擴展、刪除、重塑：Playground AI中的圖像魔法

需要被注意的AI新創，他要讓所有軟體都可以被AI操控

by Rain Chu | 10 月 20, 2023 | AI, Tool

近年來，AI技術在多方面都已發光發熱，其中最具話題性的當屬Adept這家新創公司。微軟的Copilot雖然在Office365的範疇內有著出色的表現，但Adept則有著更宏大的願景——使所有的軟體都能夠被AI所操控。

Adept的目標是簡單而直接的：用一句話完成所有任務。他們打造了名為「AI助理」的概念，實際上是透過他們開發的ACT-1模型來實現。這款模型基於深度學習基礎模型Transformer所建構，使其能夠學習與模仿使用者的電腦操作，從而自動執行複雜的任務。舉例而言，使用者只需要在Adept的文本框中簡單輸入指令，ACT-1模型就能夠按照使用者的習慣，自動完成指令中的所有要求。

除此之外，Adept的市值和募資金額也非常驚人。在僅成立一年之內，該公司就成功獲得了超過4億美元的募資，投資方包括了Microsoft、Nvidia、Greylock等知名企業和創投機構。尤其值得一提的是，《Forbes》報導指出，該公司最近以10億美元的估值完成了B輪募資，這無疑再次證明了Adept的商業模型和技術潛力。

作為OpenAI的競爭對手，Adept逆勢籌資，並已經明確表示他們希望開發出新的AI工具。他們的目標是利用AI以全新的方式來操控電腦，真正讓AI成為每一位使用者的個人助理。