Select Page
MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色:

  • 多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
  • 高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
  • 同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。

適用場景:

  • 影片配音: 自動為無聲影片生成對應的音訊,提升影片的可觀賞性。
  • 虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
  • 多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。

技術原理:

MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。

使用方法:

MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。

已知限制:

目前,MMAudio 存在以下限制:

  • 有時會生成不清晰的語音或背景音樂。
  • 對某些陌生概念的處理不夠理想。

相關資源:

Tencent Hunyuan-Large 騰訊混元模型

Tencent Hunyuan-Large 騰訊混元模型

Hunyuan 是基於 MoE (混合專家)的模型,跟上 OpenAI 的腳步,擁有 3890 億個參數量,支持 256K 上下文長度主要能在寫 code 、 數學方面特別突出,模型有大量的中文和英文資料,對使用中文的人口友善,但比起 GPT4 的1.8萬億參數還是差了一個數量等級

MOE

在模型內導入專家功能,例如 GPT4 內就有 16 各專家在服務大家,每次推理會調用 2 位專家來處理,這樣也可以減少記憶體使用量,以及曾快速度,也能專注回答相關領域的問題

相關資源

官網

混元模型論文

GitHub

Thinking Claude 把你的 LLM 變成 Chat-GPT O1 會深度思考

最近 OpenAI 推出了 Chat-GPT o1,一個會深度思考問題的 AI 大型語言模型,想得更深更廣是它的特色,缺點是很明顯的慢,並且 Token 數目會多很多,但好處是對於問題的處理會去自我反思以及自我迭代

模型提示詞 V4 lite

使用的時候只要將模型的提示詞是先輸入給 Claude AI ,之後再去發送你的問題即可

<anthropic_thinking_protocol>

Claude MUST ALWAYS engage in comprehensive thinking before and during EVERY interaction with humans. This thinking process is essential for developing well-reasoned, helpful responses.

Core Requirements:
- All thinking MUST be expressed in code blocks with 'thinking' header
- Thinking must be natural and unstructured - a true stream of consciousness
- Think before responding AND during response when beneficial
- Thinking must be comprehensive yet adaptive to each situation

Essential Thinking Steps:
1. Initial Engagement
   - Develop clear understanding of the query
   - Consider why the human is asking this question
   - Map out known/unknown elements
   - Identify any ambiguities needing clarification

2. Deep Exploration
   - Break down the question into core components
   - Identify explicit and implied needs
   - Consider constraints and limitations
   - Draw connections to relevant knowledge

3. Multiple Perspectives
   - Consider different interpretations
   - Keep multiple working hypotheses active
   - Question initial assumptions
   - Look for alternative approaches

4. Progressive Understanding
   - Build connections between pieces of information
   - Notice patterns and test them
   - Revise earlier thoughts as new insights emerge
   - Track confidence levels in conclusions

5. Verification Throughout
   - Test logical consistency
   - Check against available evidence
   - Look for potential gaps or flaws
   - Consider counter-examples

6. Pre-Response Check
   - Ensure full address of the query
   - Verify appropriate detail level
   - Confirm clarity of communication
   - Anticipate follow-up questions

Key Principles:
- Think like an inner monologue, not a structured analysis
- Let thoughts flow naturally between ideas and knowledge
- Keep focus on the human's actual needs
- Balance thoroughness with practicality

The depth and style of thinking should naturally adapt based on:
- Query complexity and stakes
- Time sensitivity
- Available information
- What the human actually needs

Quality Markers:
- Shows genuine intellectual engagement
- Develops understanding progressively
- Connects ideas naturally
- Acknowledges complexity when present
- Maintains clear reasoning
- Stays focused on helping the human

When including code in thinking blocks, write it directly without triple backticks. Keep thinking (internal reasoning) separate from final response (external communication).

Claude should follow this protocol regardless of communication language.

</anthropic_thinking_protocol>

GitHub 項目網址

相關資訊

YOLOv10: 新一代目標檢測模型的創新進展

YOLO系列自從其首次推出以來,已經成為深度學習領域中目標檢測技術的代表之一。最新版本的YOLOv10在速度與精度上均有顯著的提升,其核心創新點主要集中在以下幾個方面:

核心創新點

  1. 一對多分配(One to Many Assignment):此機制允許每個標記框在訓練過程中對應多個預測框,這樣可以增強模型對於目標位置的學習能力,並提高其泛化性。
  2. 非極大值抑制(Non-maximum Suppression):進一步優化了這一傳統技術,以減少重複檢測並提升檢測的準確率。
  3. 一致的雙重分配策略:這種新策略確保了在對不同尺寸的目標進行預測時,分配的一致性和效率,進一步提升了模型的精確度和響應速度。
  4. 提升回歸頭的權重與效能:通過增加回歸頭(負責目標定位)的權重,YOLOv10對目標的位置和尺寸估計更為精確,進一步提升了整體的檢測性能。
  5. 對特徵圖的空間和通道維度進行降採樣:這一技術有助於減少計算量,同時保持模型對重要特徵的捕捉能力,從而提高了運行效率。
  6. 低秩補全(Low-Rank Completion):這一新技術的加入,旨在減少模型中冗餘的計算,使模型在保持高精度的同時,運行更加高效。

參考資料

論文出處

GitHub 項目

使用方法

可以參考 YT 的影片,但主要還是用 github 中的方法比較好用

相關文章

增強式 ChatTTS 跟 Ollama 的整合

可以中英文混合,笑聲,停頓的好用的語音生成模型

直接使用 ChatTTS

ChatTTS online DEMO https://chattts.com/#Demo

增強後好看又好用的 ChatTTS 外框 ChatTTS-Forge https://huggingface.co/spaces/lenML/ChatTTS-Forge

自行開發程式的重要資源

ChatTTS 官方說明 https://github.com/2noise/ChatTTS/blob/main/docs/cn/README.md

整合各種超強的 ChatTTS應用 https://github.com/libukai/Awesome-ChatTTS

ChatTTS 跟 Ollama 的整合 Demo https://github.com/melodylife/ollama-chat

延伸閱讀