by rainchu | 12 月 12, 2025 | AI , PPT , Prompt , 圖型處理
最近 Google Labs 再次投下震撼彈——推出全新的視覺協作工具 Google Mixboard 。這款被科技界譽為「進階版的 AI Pinterest 」的創作平台,不只提供一張能無限延伸的靈感畫布,讓使用者自由拼貼、蒐集、創作,更強大的是它整合了 Google 最新影像模型 Gemini Nano Banana Pro ,讓「圖片與文字的轉化能力」大幅進化。
Mixboard 不只是找圖工具,它是一款真正能把雜亂靈感整合成專業產出 的 AI 創作平台。從蒐集參考、生成圖像、到一鍵變成簡報,你的創作流程從此不再分散於各個應用工具,全部在 Mixboard 一站式完成。
🌈 AI 靈感畫布:願景、概念、素材一次整合
Mixboard 的核心概念是一張能無限延伸的 Infinite Canvas(無限畫布) 。你可以:
任意拖放圖片與文字
建立 Moodboard / 風格版
生成 AI 圖像
標記重點、串連思考流程
與團隊同步協作
它的使用體驗與 Pinterest 的收藏便利性類似,但功能延伸到即時生成、編輯與視覺敘事,因此被形容為「AI 時代的 Pinterest 2.0」。
對設計師、行銷人、PM、內容創作者而言,這款工具能大幅提升發想到產出的速度與品質 。
⚡ Nano Banana Pro 模型強化「圖文轉化」:簡報不再需要手動排版
Mixboard 最大亮點,就是 Google Labs 全新的 Gemini Nano Banana Pro 影像模型。
它最令人驚豔的能力是:
⭐ 一鍵把零散靈感 → 自動變成專業簡報
只要選擇畫布內容並下指令,Mixboard 能:
自動辨識素材意圖
依據內容自動重構敘事結構
自動生成排版精美的投影片
產出高解析度圖片與文字
保留原本的風格、色調、敘事邏輯
無論你是做品牌提案、產品靈感收集、UI 改版構思、或社群 campaign 規劃,原本需要花上數小時整理的簡報,都只要 一鍵轉換 就能完成。
🧩 Mixboard 解決了哪些過往創作痛點?
1. 靈感雜亂、難以整理
貼在 Notion?存到 Pinterest?散落在相簿? Mixboard 用單一畫布把所有靈感視覺化。
2. 簡報排版耗時
你只需要負責「想法」,簡報排版由 AI 完成。
3. 多工具切換降低效率
找圖 → 裁圖 → 設計 → 編排 → 簡報,全部一站式完成,大幅縮短製作流程。
4. 團隊協作斷層
Mixboard 支援分享與多人編輯,視覺溝通更直觀。
🚀 更適合哪些族群使用?
品牌行銷團隊
社群小編、內容創作者
新創團隊 Pitch Deck 製作者
設計師、UI/UX 規劃者
教育工作者、講師
想快速整理靈感的人
如果你常常在 Canva、Keynote、Notion、Pinterest 之間切換,Mixboard 將會是你最強的替代方案。
🔗 更多資訊
官方網站:https://labs.google.com/mixboard/welcome
by rainchu | 11 月 23, 2025 | AI , 圖型處理 , 繪圖
所謂 AI 圖像生成,是指利用人工智慧模型(如「文本轉圖片」或「圖片轉圖片」)從文字提示、或現有影像作為輸入,產出全新視覺作品。這類工具背後常用「擴散模型」(diffusion models)或其他生成式架構。 簡單來說:你描述一個場景(例如「夕陽下的海邊,少女拿著風箏」),系統便生成一張對應的圖片。
快速上手指南:三步驟產出視覺作品
步驟 1:明確構思內容 先決定你想產出的圖片用途及風格。例如:部落格封面需「科技未來感+淡藍色調」;社群貼文需「手繪風+少女與貓」。這樣有助生成更精準。步驟 2:輸入提示(Prompt)並生成 在工具中輸入清楚描述,並可加入參數如「–攝影光線」、「–油畫質感」。生成後可選擇「變化(variation)」「放大(upscale)」等功能。步驟 3:後製與整合 AI 產出的圖片可作為初稿,您仍可在 Photoshop、Affinity 等工具中微調構圖、色彩、文字疊加,或加入自家元素,使之更符合品牌風格。
模型推薦:哪個最穩定、最強?
經檢視多項資料後,我們推薦使用 Analog Madness 模型。這裡說明為什麼選它:
Analog Madness 是一款靠近真實攝影質感的影像生成模型,据社群評論和模型頁面資料指出,其在「真實風格」、「類比攝影風格」方面表現優異。
它常被描述為「非常多用途(versatile)」、「提示越強效果越好」的模型。
在專門探討 AI 模型的討論中,有使用者提問:「Is Analog Madness the best 1.5 photorealistic model?」可見其在社群中名字較為常見。
使用建議 :
若你想要達成「真實感+類比攝影風格」的圖片,可選擇 Analog Madness 並搭配精細提示。
提示範例可加入「ultra realistic close up portrait, film grain, analog style, 4K」等描述。
注意:即便是最強模型,也仍需你提供具體而精準的提示詞;模型本身不是完全自動完美,仍須人為設計輔助。
LoRA 濾鏡玩法:讓 AI 直接「化妝」你的圖
除了選擇強模型之外,另一個提升圖片風格自由度與創意控制的關鍵是 LoRA(Low-Rank Adaptation)濾鏡 。以下為其玩法介紹:
什麼是 LoRA? LoRA 是指對一個大型生成模型進行輕量調整/適配,使其偏向某一風格或特定主題。利用 LoRA,你可以讓模型「偏好」某風格(如「時尚雜誌妝感」、「像電影膠片的色調」)或直接給圖片加「化妝」特效。
怎麼使用?
選擇一個支持 LoRA 的 UI 或工具(如 Stable Diffusion 前端)。
將你想加入的 LoRA 模組載入(如「beauty-makeup LoRA」、「film-grain LoRA」等)。
在提示(prompt)中明確加入你想的濾鏡風格,例如: prompt: 「A glamorous portrait of a woman, heavy makeup, glossy lips, dramatic eyeshadow, analog film style, beauty light」 同時在設置中啟用對應 LoRA。
效果與建議 :
利用 LoRA,你能讓 AI 圖像加上「化妝效果」、「風格化妝感」、「光影膠片質感」等,使圖片更具商業或時尚感。
建議提示中加入「makeup, dramatic eyeshadow, high-gloss skin, studio lighting」等描述詞,再搭配 LoRA,效果更佳。
若你生成系列圖片(例如插畫系列或社群貼文系列),可固定同一個 LoRA 濾鏡,以維持風格一致性。
注意事項 :
某些 LoRA 模組可能只用於私人、非商業用途,使用前請確認授權。
濾鏡效果強度過高可能導致圖片不自然,建議生成後進一步微調。
快速上手指南:三步驟產出視覺作品
步驟 1:明確構思內容 先決定你想產出的圖片用途及風格。例如:部落格封面需「科技未來感+淡藍色調」;社群貼文需「手繪風+少女與貓」。這樣有助生成更精準。步驟 2:選模型+載入 LoRA +輸入提示 使用推薦模型 Analog Madness,載入你喜歡的 LoRA 濾鏡。然後在工具中輸入清楚描述,並可加入參數如「makeup, film grain, analog photo, masterpiece」。生成後可選擇「變化(variation)」「放大(upscale)」等功能。步驟 3:後製與整合 AI 產出的圖片可作為初稿,您仍可在 Photoshop、Affinity 等工具中微調構圖、色彩、文字疊加,或加入自家元素,使之更符合品牌風格。
注意事項與實用 Tips
提示越具體,效果越好 :描述中加入「情緒、光線、構圖、色調」等詞彙。
檢查版權與用途限制 :若將圖片用於商業用途,請確認工具條款。
視覺風格一致性 :若產出系列圖像,建議統一提示中指定風格,以維持一致性。
避免過度依賴 AI :AI 是輔助工具,創作者仍可加入人性化元素、構思與個人風格。
輸出檔案備份 :建議保存原始生成圖片與提示文字,以便未來回溯或修改。
參考資料
https://aigallery.app
by rainchu | 11 月 21, 2025 | AI , 圖型處理
Google 於 2025 年 8 月正式推出其 AI 圖像生成模型 「Nano Banana」 ,隨後在 11 月發佈進階版 Nano Banana Pro(亦稱 Gemini 3 Pro Image) 。這款模型支援文字與圖片提示生成高畫質圖像,並加入進階編輯控制!以下為你拆解五大亮點、技術優勢與實用建議。
亮點特色
文字+圖片提示生成適用於海報、邀請卡類作品 Nano Banana Pro 不僅從文字提示生成圖像,更可接受圖片作為提示,適合用於設計海報、邀請卡、社群素材等「文字+圖片」混合創作。
可視化資訊圖表與示意圖能力強 支援將情境資訊轉成圖像,例如天氣圖、運動賽事分析、資訊圖表等。模型具備世界知識,可生成具情境感與資料感的視覺內容。
一次處理多素材、最多 14 張圖片融合、至多 5 位人物一致性 在同一張畫面中可融合多達 14 張圖片,並可保持最多 5 位人物在不同素材間的一致外觀,對於角色設定、場景設計、品牌識別非常有用。
進階編輯功能:局部選擇+攝影機角度+背景虛化+色彩分級+日夜切換、支援多比例與 4K 輸出 Nano Banana Pro 加入更細緻的控制選項:你可選擇局部進行編輯、調整攝影機角度、改變焦距、背景模糊、色彩分級,甚至切換日夜模式。此外支援多種長寬比例,最高可生成 4K 解析度。
能識別並翻譯商品上的文字 模型可以清晰渲染圖像中的文字(例如商品包裝上的文字),並可進行多語言處理/翻譯,適合電商素材製作或國際化設計。
技術與應用洞察
Nano Banana Pro 是建立在 Google Gemini 3 Pro Image 的架構上,具備「推理(reasoning)模型核心 + 高級渲染」能力。
模型支援「thinking mode」或「多回合提示」(multi-turn prompting),透過內部「思考階段」生成中繼草圖,再產出高解析圖像。
在輸出方面,支援高達 4K 解析度、精確字體呈現、多語言文字支援、跨平台比例(如社群貼文、海報、橫幅、影片封面)。
應用場景包括:品牌/行銷設計、資訊圖表製作、產品視覺呈現、社群內容創作、教育/說明圖像、活動邀請卡等。
使用建議與注意事項
在提示(prompt)撰寫時,建議提供「文字提示+圖片提示(若有)+指定比例/解析度/風格」三項要素。
若想保持人物一致性或場景融合,建議提供多張圖片提示(最多 14 張),並指定「5 位人物一致外觀」。
若使用文字渲染功能或多語言文字素材(如包裝文字翻譯),可在提示中明確說明「請將英文字 ‘XXX’ 翻譯為韓文/中文並置於包裝正面」。
參考資料
https://gemini.google/
by Rain Chu | 9 月 2, 2025 | AI , 圖型處理 , 模型
你是否曾想把自己的照片變成桌上擺放的公仔模型?現在可以透過 Google 最新的 Nano Banana 模型(亦稱 Gemini 2.5 Flash Image)!你只需在 Google AI Studio 或 Gemini App 上上傳人像照片,就能透過文字描述,生成一張效果逼真的「真人公仔照」,免費、免 VPN,簡單又好玩!
快速上手教學(適用 AI Studio 或 Gemini App)
前往 Google AI Studio 或使用 Gemini App 。
選擇模型為 Gemini 2.5 Flash Image(Nano Banana) 。
上傳你的照片(建議用正面自拍)。
輸入以下 prompt:
A hyper-realistic 1/7 scale figurine of a character, designed as a finished commercial product, placed on an iMac computer desk with a white Apple keyboard. The figurine stands on a clean, round transparent acrylic base with no labels or text. Professional studio lighting highlights the sculpted details. On the iMac screen in the background, display the ongoing ZBrush modeling process of the same figurine, showing the contrast between “work in progress” and the finished product. Next to the figurine, place its packaging box with rounded corners and a transparent front window. The box is open at the top, revealing only the inner transparent plastic clamshell, and its height is slightly taller than the figure, realistically sized to contain it.
約莫 10 至 12 秒後,Nano Banana 將生成一張高質感的“公仔照”。
若不滿意,可繼續輸入新的指令,進行多回合優化。
除了用 Gemini, Google AI Studio 之外,也有一個很親民的工具可以使用,Google Whisk 是 Google Labs 推出的一款 AI 圖像生成實驗工具,它的核心理念是「用影像提示取代文字提示」,讓創作過程更直觀、有趣又快速 。
使用方式總覽:
使用者可以上傳或拖曳多張圖片,分別指定為 主體 (Subject) 、場景 (Scene) 與 風格 (Style) 。
Whisk 會透過 Gemini 多模態 AI 生成每張圖片的描述(把圖像翻譯成文字),再透過 Imagen 3 來自動生成最終的合成圖像 。
若使用者沒有圖片,也可以點擊類似骰子的按鈕,讓 Whisk 自動產生候選圖像作為創作起點。
最終生成的作品同時附上自動生成的文字提示,使用者可收藏(favorite)、下載或進入「refine」(精修)模式繼續調整。
功能特色與優勢
特性 說明 直觀的視覺提示流程 不需撰寫冗長文字,只要用圖像即可引導 AI 創作,降低入門門檻。 高度創意自由度 主體、場景、風格可任意混搭,產出意想不到的視覺效果。 可精調的 prompt Whisk 生成的文字提示可供修改,讓你能微調構圖或細節。 迅速生成,適合腦力激盪 非用於精細修圖,而是強調快速試想與探索多種視覺可能性。
背後技術架構
Whisk 的生成流程依靠兩大 Google 強力 AI 模型:
Gemini :將使用者上傳的圖片轉換成文字描述(Image → Text)。
Imagen 3 :根據 Gemini 輸出的描述,生成新圖像(Text → Image)。
這種「I2T 加 T2I」方式,讓工具更懂得捕捉「精髓」而非複製細節,有助於創造富有變化的視覺作品
應用場景與用戶心得
適用於:
創意構想 :設計師、行銷、插畫師與教育者都能用它腦爆想法,例如試出角色在不同情境下的樣貌。
教育工具 :老師可以讓學生用上傳的照片快速生成故事插圖或原型設計。
快速原型設計 :用於生成貼紙、胸章、絨毛玩偶等產品概念,效率高又富創意。
最新資訊與發展動向
Whisk 自 2024 年底正式推出以來,已從初期美國限定,擴展至全球超過百個國家使用。
隨著技術升級,Whisk 已經從最初的 Imagen 3 模型,陸續升級到更新、更強的 Imagen 4,圖像品質更高。
雖然最近 Google 也廣為報導其視頻工具 Flow,但 Whisk 主要還是聚焦在圖像創作領域。
官網
https://aistudio.google.com/prompts/new_chat
https://gemini.google.com
參考資料
by Rain Chu | 8 月 30, 2025 | AI , 圖型處理 , 數據分析
LaneSOD 是一套基於 InSPyReNet (逆向顯著性金字塔重建網路)而延伸出的開源模型,專門針對車道線分割(Lane Segmentation),應用於駕駛場景的 AI 視覺處理中。透過強大的顯著性檢測技術,LaneSOD 能精準辨識道路上的車道線,具備高準確度與可用性。
一、什麼是 LaneSOD?
核心技術 :LaneSOD 架構於 InSPyReNet,後者是一種高解析度顯著性物件偵測模型,於 ACCV 2022 上提出,專門處理高解析度圖片的顯著性檢測,使用金字塔結構融合多階層特徵提高精度。
執行場景 :LaneSOD 適用於駕駛視角的車道識別,尤其在多車道或複雜光線下仍能穩定運作,是自駕輔助或智慧交通系統的理想工具。
二、快速上手:使用 LaneSOD 的流程概覽
以下以 Python + PyTorch 環境為基礎,簡述流程步驟:
安裝依賴與下載模型:
git clone https://github.com/plemeri/LaneSOD.git
cd LaneSOD
pip install -r requirements.txt
資料準備與推論:
from lanesod import LaneSODModel
model = LaneSODModel(pretrained=True)
# 載入測試影像
img = load_image("road_scene.jpg")
mask = model.predict(img)
save_image_mask("road_scene_mask.png", mask)
mask 是二值化輸出,車道線處為前景。
可進行後處理(edge filtering)提升視覺辨識效果。
三、LaneSOD 的特色亮點
高解析度精準分割 :繼承 InSPyReNet 的頂尖顯著性分析能力,即使複雜場景仍保持高精度。
簡易套件整合 :支援 CLI 和 Python API,開發者可快速整合至專案。
應用靈活性高 :適用於單張圖片、影片逐幀處理或即時影像分析。
MIT 開源授權 :自由使用並可擴展至商業應用。
四、實戰建議
強調後處理 :可搭配 OpenCV 做 morphological operations(如 dilation, erosion)強化車道線連貫性。
影片整合 :巡迴處理影片每幀、並套用 temporal smoothing,可提升邊界一致性與視覺效果。
多元測試場景 :建議在白天、夜晚、陰影等多樣環境下測試模型穩定性。
原始資料
https://github.com/plemeri/LaneSOD
by Rain Chu | 8 月 29, 2025 | AI , 圖型處理 , 影片製作
如何輕鬆地運用 AI 技術,讓影片或直播畫面擁有透明背景 ,無需繁鎖編輯與圖層操作!今天分享的工具是使用 InSPyReNet 提供的開源套件
工具簡介:什麼是 transparent-background[webcam]?
核心技術 :基於 InSPyReNet(ACCV 2022)所提出的 AI 去背演算法,支援圖片、影片甚至 webcam 的背景移除功能 。
Python 套件 :名稱為 transparent-background,採 MIT 授權,可自由商業使用。
強大特色 :
支援多種輸出模式:如 RGBA(透明背景)、saliency map、綠幕、背景模糊、overlay 等。
支援 webcam 輸入,但 Linux 上需安裝 v4l2loopback 才能建立虛擬攝影機
安裝與依賴設定(含 webcam 支援)
安裝套件 :
pip install transparent-background[webcam]
若使用 Linux,請安裝 webcam relay :
git clone https://github.com/umlaeute/v4l2loopback.git && cd v4l2loopback
make && sudo make install
sudo depmod -a
sudo modprobe v4l2loopback devices=1
CLI 快速範例
transparent-background --source 0 --dest output_folder --type rgba
參數說明:
--source 0 表示 webcam 輸入(一般第一支 webcam 為 0)。
--type rgba 代表輸出為帶 alpha 通道的透明背景影像。 可依需求更換為 map、green、blur、overlay 或指定背景圖
用於單一影片檔案
Python API 範例:
讀取 webcam 並顯示去背畫面
import cv2
from transparent_background import Remover
remover = Remover()
cap = cv2.VideoCapture(0) # 開啟預設 webcam
while True:
ret, frame = cap.read()
if not ret:
break
# 處理去背結果(RGBA)
out = remover.process(frame, type="rgba")
cv2.imshow("Transparent Webcam", out)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
cap.release()
cv2.destroyAllWindows()
📖 transparent-background 參數說明
--source [SOURCE](必填)
指定輸入的資料來源,可以是:
單張圖片 :例如 image.png
圖片資料夾 :例如 path/to/img/folder
單個影片檔 :例如 video.mp4
影片資料夾 :例如 path/to/vid/folder
整數 :用於指定 webcam 地址,例如 0(對應 /dev/video0 的攝影機)
--dest [DEST](可選)
輸出結果存放的資料夾,若未指定,則預設為當前工作目錄 。
--threshold [THRESHOLD](可選)
設定硬性去背的閾值,範圍為 0.0 ~ 1.0 。
不建議與 soft prediction 同時使用 ,若未設定,系統會使用「軟性預測」來生成更自然的透明效果。
--type [TYPE](可選)
選擇輸出的背景類型,預設為 rgba:
rgba :輸出帶透明通道的影像(alpha map),若未設定 threshold,會自動透過 pymatting 進行前景提取。⚠️ 此模式不適用於影片或 webcam 。
map :輸出純粹的 saliency map(灰階遮罩)。
green :將背景換成綠幕。
white :將背景換成純白色(由 [carpedm20] 貢獻)。
‘[255, 0, 0]’ :使用指定的 RGB 顏色作為背景(需加單引號)。
blur :將背景模糊處理。
overlay :以半透明綠色覆蓋前景並突顯邊緣。
另一張圖片 :可指定圖片路徑(例如 samples/background.png),前景會直接疊加在該背景上。
--ckpt [CKPT](可選)
使用其他模型檔(checkpoint)。
--mode [MODE](可選)
指定運行模式:
base :標準模式。
base-nightly :使用 nightly release 版本的 checkpoint。
fast :快速模式,速度快但可能在細節上略有損失。
其他選項
--resize [RESIZE] (可選):
static(預設):輸出尺寸固定。
dynamic:生成更清晰的邊緣,但可能不穩定。
--format [FORMAT] (可選):輸出格式,若未指定,會與輸入格式相同。
--reverse (可選):反轉去背結果,將前景移除 、保留背景(官方玩笑稱為「transparent-foreground」模式 😆)。
--jit (可選):啟用 TorchScript 模式,會先透過 PyTorch JIT 編譯器追蹤模型,初始化較慢,但推論速度更快且記憶體佔用更低。
範例
單張圖片去背 (輸出透明 PNG):
transparent-background --source input.png --dest output --type rgba
處理整個資料夾的圖片,並輸出模糊背景效果 :
transparent-background --source ./images --dest ./results --type blur
即時 webcam 去背 (Linux 需安裝 v4l2loopback):
transparent-background --source 0 --dest ./webcam_output --type green
更換背景為自訂圖片 :
transparent-background --source video.mp4 --dest ./output --type 'backgrounds/bg.png'
GUI 模式
安裝 GUI 支援
pip install --extra-index-url https://download.pytorch.org/whl/cu118 transparent-background[gui] # with gui dependency (flet)
開啟 GUI
transparent-background-gui
官方教學
VIDEO
官方網頁
https://github.com/plemeri/transparent-background
採用的演算法
https://github.com/plemeri/InSPyReNet
開源的後製影片軟體
https://kdenlive.org
參考資料
近期留言