Select Page
Manus 沒邀請碼怎麼辦?用 OpenManus 本地免費部署 Ollama 模型,三分鐘搞定

Manus 沒邀請碼怎麼辦?用 OpenManus 本地免費部署 Ollama 模型,三分鐘搞定

Views: 20

🚀 1. 本地端完美對接 Ollama AI 模型

OpenManus 最大的亮點在於能與目前最流行的 Ollama 本地端 AI 大模型平台進行完美整合。

  • Ollama 是一個輕量、高效的 AI 模型管理工具,讓你可以輕鬆在自己的電腦上運行各種強大的大模型(如 Llama3、Qwen、DeepSeek 系列模型等)。
  • OpenManus 透過 Ollama API 與這些模型無縫互動,你能輕易在本地體驗到媲美線上服務的智慧功能,並保護個人隱私。

💻 2. 跨平台支援 Windows、Mac、Linux

無論你使用哪個平台,OpenManus 都有完整的跨平台支援,讓你輕鬆安裝與運行:

  • Windows 用戶可透過 Conda 或 Docker 快速部署。
  • macOS 用戶可以使用 Homebrew 或直接透過終端機運行。
  • Linux 用戶則能自由選擇 Docker 或直接透過原生方式安裝。

🎯 3. 無需邀請碼,即裝即用!

不同於原始封閉的 Manus 需要透過邀請碼才能使用,OpenManus 堅持完全開源與自由的精神。
無須註冊、無須邀請碼,直接部署到自己的電腦,立即開始使用,毫無限制,這就是開源社群給予大家最棒的禮物。


如何快速部署 OpenManus?(以 Windows 為例)

只需幾個簡單步驟,即可享受本地端 AI 大模型:

建立 Conda 環境:

conda create -n openmanus python=3.12
conda activate openmanus

Git OpenManus 專案:

git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus

安裝所需依賴:

pip install -r requirements.txt

修改設定檔(config.toml):

cp config/config.example.toml config/config.toml

config.toml的內容如下,可以參考後修改

# Global LLM configuration
#[llm]
# model = "claude-3-7-sonnet-20250219"        # The LLM model to use
# base_url = "https://api.anthropic.com/v1/"  # API endpoint URL
# api_key = "YOUR_API_KEY"                    # Your API key
# max_tokens = 8192                           # Maximum number of tokens in the response
# temperature = 0.0                           # Controls randomness

# [llm] #AZURE OPENAI:
# api_type= 'azure'
# model = "YOUR_MODEL_NAME" #"gpt-4o-mini"
# base_url = "{YOUR_AZURE_ENDPOINT.rstrip('/')}/openai/deployments/{AZURE_DEPOLYMENT_ID}"
# api_key = "AZURE API KEY"
# max_tokens = 8096
# temperature = 0.0
# api_version="AZURE API VERSION" #"2024-08-01-preview"

[llm] #OLLAMA:
api_type = 'ollama'
model = "llama3.2"
base_url = "http://localhost:11434/v1"
api_key = "ollama"
max_tokens = 4096
temperature = 0.0

# Optional configuration for specific LLM models
#[llm.vision]
#model = "claude-3-7-sonnet-20250219"        # The vision model to use
#base_url = "https://api.anthropic.com/v1/"  # API endpoint URL for vision model
#api_key = "YOUR_API_KEY"                    # Your API key for vision model
#max_tokens = 8192                           # Maximum number of tokens in the response
#temperature = 0.0                           # Controls randomness for vision model

[llm.vision] #OLLAMA VISION:
api_type = 'ollama'
model = "llama3.2-vision"
base_url = "http://localhost:11434/v1"
api_key = "ollama"
max_tokens = 4096
temperature = 0.0

# Optional configuration for specific browser configuration
# [browser]
# Whether to run browser in headless mode (default: false)
#headless = false
# Disable browser security features (default: true)
#disable_security = true
# Extra arguments to pass to the browser
#extra_chromium_args = []
# Path to a Chrome instance to use to connect to your normal browser
# e.g. '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'
#chrome_instance_path = ""
# Connect to a browser instance via WebSocket
#wss_url = ""
# Connect to a browser instance via CDP
#cdp_url = ""

# Optional configuration, Proxy settings for the browser
# [browser.proxy]
# server = "http://proxy-server:port"
# username = "proxy-username"
# password = "proxy-password"

# Optional configuration, Search settings.
# [search]
# Search engine for agent to use. Default is "Google", can be set to "Baidu" or "DuckDuckGo".
# engine = "Google"

啟動 OpenManus 服務:

python main.py

之後打開瀏覽器就可以了

測試 OpenManus :

可以輸入請他使用瀏覽器看某一個網站,並且執行SEO策略

打開 https://rain.tips/ 並且給予SEO的建議,並且把建議存放在桌面上.txt的文件

補充資料

Github

探索 Wan 2.1:阿里巴巴推出的高效 AI 影片生成模型,融入哪吒等東方元素

探索 Wan 2.1:阿里巴巴推出的高效 AI 影片生成模型,融入哪吒等東方元素

Views: 16

探索阿里巴巴開源的 AI 影片製作模型:Wan 2.1

阿里巴巴近期推出的開源影片生成模型——Wan 2.1,為創作者提供了一個強大且高效的工具。​該模型不僅完全開源,還具備極快的生成速度,並融入了豐富的東方元素,如哪吒等,為影片創作帶來了新的可能性。​

Wan 2.1 的主要特色

完全開源,兼容性強

Wan 2.1 採用 Apache 2.0 協議開源,這意味著開發者可以自由地使用、修改和分發該模型,甚至用於商業用途。​此外,Wan 2.1 支援 ComfyUI 等圖形介面,方便用戶進行可視化操作,降低了技術門檻。​

高效的影片生成速度

得益於先進的架構設計,Wan 2.1 在影片生成速度上表現優異。​即使在消費級 GPU 上,如 RTX 3070 顯卡,使用 1.3B 參數模型即可流暢運行,生成 480P 分辨率的影片,更何況現在已經來到了RTX 5090,​這將讓個人也能夠在本地設備上高效地進行影片創作。​

豐富的東方元素融入

Wan 2.1 在影片生成中融入了大量的東方元素,特別是中國傳統文化中的角色和場景。​例如,模型能夠生成包含哪吒等經典角色的影片,這為喜愛東方文化的創作者提供了更多的創作靈感和素材。​

如何離線使用 Wan 2.1 進行影片創作

  1. 環境準備:​首先,確保您的電腦具備足夠的硬體資源,建議使用至少 12GB 顯存的顯卡。​
  2. 下載模型:​從官方 GitHub 倉庫或 HuggingFace 平台下載 Wan 2.1 的模型檔案。​
  3. 安裝依賴:​根據官方指引,安裝所需的 Python 套件和其他依賴項。​
  4. 運行 ComfyUI:​啟動 ComfyUI,載入 Wan 2.1 模型,並按照介面提示輸入文本或上傳圖片,以生成對應的影片內容。
  5. ​下載 ComfyUI 工作流 : JSON

參考資料

https://www.freedidi.com/18705.html

Microsoft PowerToys 介紹

Views: 18

PowerToys 是一套由在 Windows 95 就開始用到現在的 Microsoft 開發實用工具集合,專為提高 Windows 使用者生產力和使用體驗而設計,PowerToys 提供了許多高效能的工具,幫助使用者完成日常任務,近年來,Microsoft 將其重新打造為開源專案,並為 Windows 10 和 Windows 11 提供支持。

PowerToys 在 Windows 10, 11 新增功能介紹

進階貼上(Advanced Paste)

此工具允許使用者將剪貼簿中的文字以所需格式貼上,並提供 AI 支援的選項來強化貼上功能。

Always On Top

使用此功能,您可以透過快捷鍵 Win + Ctrl + T 將視窗固定在其他視窗之上,確保重要視窗不被遮蓋。

PowerToys Awake

此工具可讓電腦保持清醒狀態,無需調整電源和睡眠設定,適合執行長時間任務時使用。

File Locksmith

此功能可檢查哪些檔案正在使用中,以及由哪些程序使用,方便管理檔案鎖定狀態。

主控件檔案編輯器(Hosts File Editor)

提供方便的方式來編輯包含網域名稱和相符 IP 位址的「Hosts」檔案,便於網路管理。

無框線的滑鼠(Mouse Without Borders)

允許使用相同的鍵盤和滑鼠與多部電腦互動,順暢地在電腦之間共用剪貼簿內容和檔案。

New+

此功能可讓您從檔案總管中的一組個人化範本建立檔案和資料夾,提升工作效率。

預覽(Peek)

允許您預覽檔案內容,而不需要開啟多個應用程式或中斷工作流程,選取檔案並使用快捷方式 Ctrl + 空格鍵 即可。

螢幕尺規(Screen Ruler)

螢幕尺規是一個實用工具,允許使用者快速測量螢幕上的像素,對於設計師和開發者來說特別有用。 只需按下快捷鍵 Win + Shift + M,即可啟動螢幕尺規,選擇測量方式,量度的像素將顯示在螢幕上。


PowerToys 的主要功能介紹:


1. FancyZones

FancyZones 是一個窗口管理工具,讓使用者可以輕鬆定義自訂的視窗佈局。這對於需要多任務處理的人來說非常實用,例如在多螢幕或高解析度顯示器上,同時排列多個應用程式視窗。

功能亮點

  • 設定自訂區域佈局
  • 快速分配應用程式到區域
  • 支持鍵盤快速操作

2. PowerToys Run

這是一個快速啟動器,類似於 macOS 的 Spotlight,可以幫助使用者快速找到應用程式、檔案,甚至執行系統命令。

功能亮點

  • 即時搜尋結果
  • 支持插件擴展
  • 可啟動 URL、執行腳本

3. Keyboard Manager

Keyboard Manager 是一個鍵盤重映射工具,讓使用者根據自己的需求修改鍵盤快捷鍵或重新定義按鍵。

功能亮點

  • 支持單鍵和組合鍵重映射
  • 適合想提升工作流程的使用者

4. Color Picker

Color Picker 是一個顏色選取工具,特別適合設計師和開發者。使用者可以快速提取螢幕上任意位置的顏色,並獲得 HEX、RGB 等格式。

功能亮點

  • 即時顏色選取
  • 支持多種顏色格式
  • 可加入快捷鍵觸發

5. File Explorer Add-ons

這個工具提供了多種檔案預覽功能,讓使用者可以直接在檔案總管中檢視支援格式的內容,例如 SVG、Markdown 和 PDF 等。

功能亮點

  • 提供更多檔案格式預覽支持
  • 簡化檔案瀏覽

6. Text Extractor

Text Extractor 是一個 OCR 工具,允許使用者從圖片中提取文字。這在需要快速複製文件或截圖中的內容時特別有用。

功能亮點

  • 支持多語言識別
  • 即時文字提取

7. Mouse Utilities

這是一組滑鼠輔助工具,幫助使用者更輕鬆地找到滑鼠指標或執行高精度點擊。

功能亮點

  • 滑鼠高亮
  • 快速定位滑鼠指標

8. Image Resizer

Image Resizer 是一個影像大小調整工具,可以直接在檔案總管中調整圖片大小,適合需要快速批次處理影像的使用者。

功能亮點

  • 支持多種解析度
  • 批次調整大小
  • 不影響原始圖片品質

為什麼選擇 PowerToys?

  • 免費且開源:PowerToys 是一個完全免費的工具,並且基於開源社群開發,功能持續更新。
  • 高度客製化:所有工具都可以根據使用者需求進行自訂設置。
  • 整合 Windows 生態系統:與 Windows 的原生功能深度整合,使用者不需要額外安裝繁瑣的軟體。

結論

可以透過 GitHub PowerToys 頁面 下載並探索更多功能。

MMAudio:自動為影片生成同步音訊的開源解決方案

MMAudio:自動為影片生成同步音訊的開源解決方案

Views: 51

MMAudio 是一款開源的多模態影片轉音訊工具,透過多模態聯合訓練技術,可以將高品質的影片與音訊合成。該專案由伊利諾大學厄巴納-香檳分校、Sony AI 及 Sony 集團公司合作開發,適用於影片配音、虛擬角色語音等多媒體創作場景。

主要特色:

  • 多模態聯合訓練: MMAudio 採用多模態聯合訓練方法,能夠同時處理影片和文字輸入,生成與內容同步的音訊。
  • 高品質音訊合成: 透過先進的模型架構,MMAudio 能夠生成高品質且自然的音訊,適用於各類應用場景。
  • 同步模組: MMAudio 的同步模組確保生成的音訊與影片畫面精確匹配,實現高度同步。

適用場景:

  • 影片配音: 自動為無聲影片生成對應的音訊,提升影片的可觀賞性。
  • 虛擬角色語音生成: 為虛擬角色生成符合其動作和表情的語音,增強互動性。
  • 多媒體內容創作: 協助創作者快速為視覺內容添加音訊,豐富作品表現力。

技術原理:

MMAudio 基於深度學習技術,特別是神經網路,理解和生成音訊資料。模型能夠處理影片和文字輸入,透過深度學習網路提取特徵,進行音訊合成。在訓練時,模型考慮音訊、影片和文字資料,使生成的音訊能夠與影片和文字內容相匹配。透過同步模組,確保音訊輸出與影片畫面或文字描述的時間軸完全對應,實現同步。

使用方法:

MMAudio 提供命令列介面和 Gradio 介面,使用者可以根據需求選擇使用。在命令列中,使用者可以透過指定影片路徑和文字提示,生成對應的音訊。Gradio 介面則提供了更友善的使用者介面,支援影片到音訊和文字到音訊的合成。

已知限制:

目前,MMAudio 存在以下限制:

  • 有時會生成不清晰的語音或背景音樂。
  • 對某些陌生概念的處理不夠理想。

相關資源:

Flowise vs. 其他 AI 代理工具:哪個更適合您的需求?

Flowise vs. 其他 AI 代理工具:哪個更適合您的需求?

Views: 211

Flowise 是一款開源的低代碼工具,一般人也可以輕易地使用,用於構建自定義的大語言模型(LLM)編排流程和 AI 代理。透過直觀的拖放介面,使用者可以輕鬆設計複雜的 AI 工作流程,無需深入的程式設計知識。

Flowise 的主要特點:

  • 開源且免費:Flowise 完全開源,使用者可自由使用並進行二次開發,無需擔心授權問題。 GitHub
  • 低代碼開發:透過簡單的拖放介面,使用者可以快速構建 LLM 應用,縮短開發週期。 Flowise AI Docs
  • 多代理支援:Flowise 提供多代理系統,允許使用者設計可與外部工具和資料來源互動的代理,實現更高效的任務處理。 Flowise AI Docs
  • 靈活的工作流程設計:使用者可以根據需求,自定義工作流程的邏輯和順序,滿足不同場景的應用需求。 

Flowise 與其他 AI 代理工具的差異:

  1. Langflow 的比較:Langflow 專注於自然語言處理,提供可視化介面來構建和調試語言處理流程。相比之下,Flowise 更強調 LLM 的編排和代理的靈活性,適用範圍更廣。 
  2. Dify 的比較:Dify 致力於簡化 AI 應用的部署,提供一站式解決方案。而 Flowise 更專注於工作流程的設計和代理的構建,提供更大的自定義空間。 
  3. 與其他工具的比較:Flowise 的開源性和低代碼特性,使其在靈活性和可擴展性方面具有優勢,適合需要快速迭代和自定義需求的開發者。 

參考資料