Select Page
OpenAI 的 AI 3D 解決方案:Point-E 與 Shap-E 的比較與應用

OpenAI 的 AI 3D 解決方案:Point-E 與 Shap-E 的比較與應用

Views: 1

OpenAI 推出了兩款開源的 3D 建模工具:Point-EShap-E,分別專注於從文字或圖片生成 3D 模型,接下來介紹這兩個模型的核心特性、技術架構、使用方法,並比較它們的優缺點,協助您選擇最適合的工具。​

🔍 Point-E:快速生成 3D 點雲的 AI 工具

📌 核心特點

  • 輸入類型:​支援文字描述或 2D 圖片。
  • 輸出格式:​生成彩色點雲(point cloud),可轉換為網格(mesh)。
  • 處理速度:​在單張 GPU 上約需 1–2 分鐘。
  • 技術架構:​採用兩階段擴散模型,先生成合成視圖,再生成點雲。
  • 應用場景:​快速原型設計、教育用途、遊戲開發等。

🧪 使用方法

  1. 安裝

生成點雲

🧠 Shap-E:生成高品質 3D 隱式模型的 AI 工具

📌 核心特點

  • 輸入類型:​支援文字描述或 2D 圖片。
  • 輸出格式:​生成隱式函數,可渲染為帶紋理的網格或神經輻射場(NeRF)。
  • 處理速度:​在單張 GPU 上可於數秒內生成。
  • 技術架構:​先訓練編碼器將 3D 資產映射為隱式函數參數,再訓練條件擴散模型生成 3D 模型。
  • 應用場景:​高品質 3D 資產創建、AR/VR 應用、3D 列印等。​

🧪 使用方法

  1. 安裝

生成 3D 模型

  • 使用 sample_text_to_3d.ipynbsample_image_to_3d.ipynb 範例筆記本。
  • 可將生成的模型導出為常見的 3D 格式,供進一步編輯或列印。

⚖️ Point-E 與 Shap-E 的比較

特性Point-EShap-E
輸入類型文字、圖片文字、圖片
輸出格式彩色點雲,可轉為網格隱式函數,可渲染為網格或 NeRF
處理速度約 1–2 分鐘數秒內
模型架構兩階段擴散模型編碼器 + 條件擴散模型
輸出品質中等,適合快速原型設計高品質,適合精細 3D 資產創建
應用場景快速原型、教育、遊戲開發高品質 3D 資產、AR/VR、3D 列印等

🧩 適用場景建議

  • Point-E:​適合需要快速生成 3D 模型的場景,如教育、初步設計、遊戲開發等。
  • Shap-E:​適合對 3D 模型品質要求較高的場景,如 AR/VR 應用、3D 列印、動畫製作等。​

🔗 資源連結

參考資訊

OpenRouter:輕鬆接入多種大型語言模型的統一平台

OpenRouter:輕鬆接入多種大型語言模型的統一平台

Views: 213

OpenRouter 是一個統一的大型語言模型(LLM)API 服務平台,可以讓使用者透過單一介面訪問多種大型語言模型。

主要特點:

  • 多模型支援: OpenRouter 集成了多種預訓練模型,如 GPT-4、Gemini、Claude、DALL-E 等,按需求選擇適合的模型。
  • 易於集成: 提供統一的 API 介面,方便與現有系統整合,無需自行部署和維護模型。
  • 成本效益: 透過 API 調用,使用者無需購買昂貴的 GPU 伺服器,降低了硬體成本。

使用方法:

  1. 註冊帳號: 使用 Google 帳號即可快速註冊 OpenRouter。
  2. 選擇模型: 在平台上瀏覽並選擇適合的模型,部分模型提供免費使用。
  3. 調用 API: 使用統一的 API 介面,將選定的模型整合到您的應用中。

Cline 整合

OpenRouter 與 Cline 的整合為開發者提供了強大的 AI 編程體驗,Cline 是一款集成於 VSCode 的 AI 編程助手,支援多種大型語言模型(LLM),如 OpenAI、Anthropic、Mistral 等,透過 OpenRouter,Cline 能夠統一調用這些模型,簡化了不同模型之間的切換和管理,使用者只需在 Cline 的設定中選擇 OpenRouter 作為 API 提供者,並輸入相應的 API 金鑰,即可開始使用多種模型進行開發。這種整合不僅提升了開發效率,還降低了使用多模型的技術門檻。

DeepSeek R1

OpenRouter 現在也支援 DeepSeek R1 模型,DeepSeek R1 是一款高性能的開源 AI 推理模型,具有強大的數學、編程和自然語言推理能力。透過 OpenRouter,開發者可以在 Cline 中輕鬆調用 DeepSeek R1 模型,享受其強大的推理能力。這進一步豐富了開發者的工具選擇,讓他們能夠根據項目需求選擇最適合的模型。

Jan:開源的離線 AI 助手,實現本地化 ChatGPT 功能

Jan:開源的離線 AI 助手,實現本地化 ChatGPT 功能

Views: 106

Jan AI 是一款完全開源且支援多種平台(Windows, Linux, Mac)的人工智慧聊天助手,類似 ChatGPT 的功能,但可完全離線運行於使用者內部的電腦上。

主要特色:

  • 離線運行:Jan 支援多種 AI 模型,如 Llama3、Gemma 或 Mistral,使用者可直接在本地端下載並運行這些模型,確保資料隱私。
  • 模型中心:提供多樣化的模型選擇,使用者可根據需求下載並運行不同的 AI 模型。
  • 雲端 AI 連接:在需要時,Jan 也能連接至更強大的雲端模型,如 OpenAI、Groq、Cohere 等,提供更高效的運算能力。
  • 本地 API 伺服器:使用者可一鍵設置並運行與 OpenAI 相容的 API 伺服器,利用本地模型提供服務。
  • 文件互動:實驗性功能,允許使用者與本地文件進行互動,提升工作效率。

開源與自訂化:

Jan 完全開源,使用者可根據個人需求進行自訂,並透過第三方擴充功能(Extensions)來增強系統功能,如雲端 AI 連接器、工具和資料連接器等。

隱私與資料擁有權:

Jan 強調使用者資料的隱私與擁有權,所有資料皆儲存在本地,並以通用格式保存,確保使用者對自身資料的完全控制。

下載與社群:

Jan 已在 GitHub 上獲得超過 2.4 萬顆星,並持續更新與改進。

相關資訊

Aider Chat-邊聊邊寫程式

Aider Chat-邊聊邊寫程式

Views: 144

Aider 是一款突破性的 AI 程式設計助理,無論是終端操作還是透過瀏覽器,都可以享受與 Aider 的互動式編程體驗

多樣化運行模式

Aider 支援兩種運行模式:

  1. 本地模式:結合 Ollama 模型,支持用戶在本地執行各種大型語言模型(LLMs)。
  2. 瀏覽器模式:無需繁瑣的安裝配置,用戶只需透過瀏覽器即可啟動對話編程,輕鬆實現即時代碼編輯。

核心功能與亮點

Git 無縫整合

Aider 深度集成本地 Git 倉庫,讓程式碼管理變得簡單高效:

  • 代碼編輯:直接使用提示詞請求代碼修改、錯誤修復或改進功能,變更將即時應用至源代碼。
  • 自動提交:所有改動將自動生成具描述性的 Git 提交記錄,便於追蹤和審核。

直觀命令操作

用戶可通過多種命令與 Aider 互動,執行各類任務:

命令說明
/add將檔案新增到聊天中,讓 GPT 可以編輯或詳細檢查這些檔案。
/ask提出與程式碼庫相關的問題,無需編輯任何檔案。
/chat-mode切換到新的聊天模式。
/clear清除聊天記錄。
/clipboard將剪貼簿中的圖片或文字新增到聊天中(可選擇提供圖片名稱)。
/code請求對程式碼進行修改。
/commit提交在聊天外進行的編輯到程式庫(提交資訊為可選)。
/diff顯示自上次訊息以來的變更差異。
/drop從聊天會話中移除檔案以釋放上下文空間。
/exit離開應用程式。
/git執行一個 Git 命令。
/help提出與 Aider 相關的問題。
/lint對提供的檔案進行 Lint 檢查並修復;若未提供檔案,則修復聊天中的檔案。
/ls列出所有已知檔案,並指出哪些檔案包含在聊天會話中。
/map輸出當前程式庫的地圖。
/map-refresh強制刷新程式庫地圖。
/model切換到新的大型語言模型。
/models搜尋可用的模型列表。
/quit離開應用程式。
/read-only將檔案新增到聊天中,僅供參考,不能編輯。
/reset刪除所有檔案並清除聊天記錄。
/run執行一個 Shell 命令,並可選擇將輸出新增到聊天中(別名:!)。
/test執行一個 Shell 命令,若退出碼非零,則將輸出新增到聊天中。
/tokens報告當前聊天上下文使用的 Token 數量。
/undo如果上次 Git 提交是由 Aider 完成的,則撤銷該提交。
/voice記錄並轉錄語音輸入。
/web擷取網頁內容,轉換為 Markdown,並新增到聊天中。

完整命令列表涵蓋從文件管理到模型切換的全方位需求。

多模型支持

Aider 支援廣泛的 LLM,包括但不限於:

  • Ollama
  • OpenAI
  • Anthropic
  • DeepSeek
  • OpenRouter

安裝與使用

基礎安裝

透過 pip 安裝 Aider:

python3 -m pip install aider-chat

運行本地 Ollama 模型

export OLLAMA_API_BASE=http://127.0.0.1:11434
aider --model ollama/mistral

# Groq
export GROQ_API_KEY=sk-xx
aider --model groq/llama3-70b-8192

# OpenRouter
export OPENROUTER_API_KEY=sk-xx
# Or any other open router model
aider --model openrouter/<provider>/<model>
# List models available from OpenRouter
aider --models openrouter/

# Web
aider --browser

# GitHub 學習用
git clone https://github.com/mewmewdevart/SnakeGame
cd SnakeGame
aider

# 请解释这个项目的功能
# 这个项目是运用了哪些技术?
# 更改蛇的颜色为绿色,食物的颜色为红色

相關資料

Aider官網

Aider GitHub

Tencent Hunyuan-Large 騰訊混元模型

Tencent Hunyuan-Large 騰訊混元模型

Views: 5

Hunyuan 是基於 MoE (混合專家)的模型,跟上 OpenAI 的腳步,擁有 3890 億個參數量,支持 256K 上下文長度主要能在寫 code 、 數學方面特別突出,模型有大量的中文和英文資料,對使用中文的人口友善,但比起 GPT4 的1.8萬億參數還是差了一個數量等級

MOE

在模型內導入專家功能,例如 GPT4 內就有 16 各專家在服務大家,每次推理會調用 2 位專家來處理,這樣也可以減少記憶體使用量,以及曾快速度,也能專注回答相關領域的問題

相關資源

官網

混元模型論文

GitHub