by Rain Chu | 4 月 24, 2026 | Agent , AI , Microsoft , Tool
在 AI 時代,「讓 AI 看懂文件」變成一個非常關鍵的能力,但現實世界的資料格式五花八門,從 PDF、Word 到 PPT、甚至影片與音訊,這些內容對 AI 來說其實並不好直接處理。
這時候,MarkItDown 就成為一把真正的「文件瑞士刀」。
由 Microsoft 開源推出,MarkItDown 能將各種格式的檔案,一鍵轉換成乾淨、結構化、AI 友善的 Markdown,讓 ChatGPT、Claude 或各種 AI Agent 能輕鬆理解與分析。
你只要把 https://github.com/microsoft/markitdown 網址貼給 agent ,請他安裝就可以了
🚀 為什麼 MarkItDown 這麼強?
MarkItDown 最大的優勢只有一句話:
👉 幾乎什麼格式都能轉,而且還轉得漂亮
📂 支援格式(強到誇張)
🧾 辦公文件
PDF
Word(DOCX)
PowerPoint(PPTX)
Excel(XLSX / XLS)
🌐 網頁內容
🖼️ 影像檔
JPG / PNG
支援 OCR 文字辨識
可搭配 AI 產生圖片描述
🎧 音訊檔
WAV / MP3
自動語音轉文字(Speech-to-Text)
📊 資料格式
📦 其他進階格式
ZIP(自動解壓並轉換)
Outlook 郵件
YouTube(自動擷取字幕)
EPub 電子書
✨ 不只是轉檔,而是「結構理解」
很多轉檔工具的問題是:
👉 轉出來變成一坨純文字(完全不能用)
但 MarkItDown 不一樣,它會:
保留標題層級(# ## ###)
還原表格結構
保留清單與段落
維持超連結
👉 轉出來就是 AI 可以直接理解的 Markdown 結構
這對以下應用非常關鍵:
RAG(檢索增強生成)
AI 文件摘要
Agent 自動閱讀文件
⚡ 安裝與使用(超簡單)
安裝
pip install "markitdown[all]"
👉 如果只需要特定格式:
pip install "markitdown[pdf,docx,pptx]"
CLI 使用
markitdown 報告.pdf -o 報告.md
Python 使用
from markitdown import MarkItDownmd = MarkItDown() result = md.convert("文件.docx")print(result.markdown)
👉 幾行程式碼就搞定
🤖 搭配 AI:威力直接翻倍
MarkItDown 真正強的地方,是它「原生為 AI 設計」。
🧠 AI 圖片理解
可串接 OpenAI 視覺模型
自動產生圖片描述
讓 AI 看懂圖片內容
🔍 OCR 文字辨識
整合 Azure Document Intelligence
可讀取掃描 PDF / 圖片文字
🔌 MCP(Model Context Protocol)整合
可直接接入 Claude Desktop
或各種 AI Agent 系統
👉 這點對在做 AI Agent / LangChain / 自動化流程 特別重要
🧩 外掛系統
📌 實際應用場景
1️⃣ 餵 AI 吃文件(超省 Token)
👉 先轉 Markdown,再丟 AI
效果:
Token 減少最多可達 80%
AI 理解更準確
2️⃣ 建構企業知識庫(RAG)
流程:
文件 → MarkItDown → Markdown → Embedding → Vector DB
👉 完整 AI 知識庫 pipeline
3️⃣ AI Agent 文件閱讀能力
在你的 Agent 流程中加入:
文件 → MarkItDown → LLM 分析
👉 Agent 直接具備「讀文件能力」
4️⃣ 會議紀錄自動化
錄音 → 轉文字 → Markdown → AI整理
👉 自動產出結構化會議紀錄
⚠️ 不是萬能
MarkItDown 雖然強,但有幾個限制:
複雜圖表(Chart / Graph)解析較弱
高度排版文件可能失真
不適合做「高保真排版還原」
👉 如果你要的是「完美排版還原」
建議用: 👉 Pandoc
👉 如果你要的是「讓 AI 看懂」 👉 MarkItDown 完勝
🧠 結論:AI 時代的文件標準工具
MarkItDown 解決了一個非常關鍵但常被忽略的問題:
👉 AI 看不懂文件格式
它的價值在於:
✅ 超廣格式支援
✅ 保留結構(不是純文字)
✅ 原生為 AI 設計
✅ 可整合 Agent / RAG / 自動化流程
✅ 免費開源
👉 如果你正在做:
AI Agent
文件分析
自動化流程
知識庫建構
MarkItDown 是 AI Agent 必裝工具。
by Rain Chu | 1 月 1, 2025 | GitHub , Windows
PowerToys 是一套由在 Windows 95 就開始用到現在的 Microsoft 開發實用工具集合,專為提高 Windows 使用者生產力和使用體驗而設計,PowerToys 提供了許多高效能的工具,幫助使用者完成日常任務,近年來,Microsoft 將其重新打造為開源專案,並為 Windows 10 和 Windows 11 提供支持。
PowerToys 在 Windows 10, 11 新增功能介紹
進階貼上(Advanced Paste)
此工具允許使用者將剪貼簿中的文字以所需格式貼上,並提供 AI 支援的選項來強化貼上功能。
Always On Top
使用此功能,您可以透過快捷鍵 Win + Ctrl + T 將視窗固定在其他視窗之上,確保重要視窗不被遮蓋。
PowerToys Awake
此工具可讓電腦保持清醒狀態,無需調整電源和睡眠設定,適合執行長時間任務時使用。
File Locksmith
此功能可檢查哪些檔案正在使用中,以及由哪些程序使用,方便管理檔案鎖定狀態。
主控件檔案編輯器(Hosts File Editor)
提供方便的方式來編輯包含網域名稱和相符 IP 位址的「Hosts」檔案,便於網路管理。
無框線的滑鼠(Mouse Without Borders)
允許使用相同的鍵盤和滑鼠與多部電腦互動,順暢地在電腦之間共用剪貼簿內容和檔案。
New+
此功能可讓您從檔案總管中的一組個人化範本建立檔案和資料夾,提升工作效率。
預覽(Peek)
允許您預覽檔案內容,而不需要開啟多個應用程式或中斷工作流程,選取檔案並使用快捷方式 Ctrl + 空格鍵 即可。
螢幕尺規(Screen Ruler)
螢幕尺規是一個實用工具,允許使用者快速測量螢幕上的像素,對於設計師和開發者來說特別有用。 只需按下快捷鍵 Win + Shift + M,即可啟動螢幕尺規,選擇測量方式,量度的像素將顯示在螢幕上。
PowerToys 的主要功能介紹:
1. FancyZones
FancyZones 是一個窗口管理工具,讓使用者可以輕鬆定義自訂的視窗佈局。這對於需要多任務處理的人來說非常實用,例如在多螢幕或高解析度顯示器上,同時排列多個應用程式視窗。
功能亮點 :
設定自訂區域佈局
快速分配應用程式到區域
支持鍵盤快速操作
2. PowerToys Run
這是一個快速啟動器,類似於 macOS 的 Spotlight,可以幫助使用者快速找到應用程式、檔案,甚至執行系統命令。
功能亮點 :
即時搜尋結果
支持插件擴展
可啟動 URL、執行腳本
3. Keyboard Manager
Keyboard Manager 是一個鍵盤重映射工具,讓使用者根據自己的需求修改鍵盤快捷鍵或重新定義按鍵。
功能亮點 :
支持單鍵和組合鍵重映射
適合想提升工作流程的使用者
4. Color Picker
Color Picker 是一個顏色選取工具,特別適合設計師和開發者。使用者可以快速提取螢幕上任意位置的顏色,並獲得 HEX、RGB 等格式。
功能亮點 :
5. File Explorer Add-ons
這個工具提供了多種檔案預覽功能,讓使用者可以直接在檔案總管中檢視支援格式的內容,例如 SVG、Markdown 和 PDF 等。
功能亮點 :
6. Text Extractor
Text Extractor 是一個 OCR 工具,允許使用者從圖片中提取文字。這在需要快速複製文件或截圖中的內容時特別有用。
功能亮點 :
7. Mouse Utilities
這是一組滑鼠輔助工具,幫助使用者更輕鬆地找到滑鼠指標或執行高精度點擊。
功能亮點 :
8. Image Resizer
Image Resizer 是一個影像大小調整工具,可以直接在檔案總管中調整圖片大小,適合需要快速批次處理影像的使用者。
功能亮點 :
為什麼選擇 PowerToys?
免費且開源 :PowerToys 是一個完全免費的工具,並且基於開源社群開發,功能持續更新。
高度客製化 :所有工具都可以根據使用者需求進行自訂設置。
整合 Windows 生態系統 :與 Windows 的原生功能深度整合,使用者不需要額外安裝繁瑣的軟體。
結論
可以透過 GitHub PowerToys 頁面 下載並探索更多功能。
by rainchu | 12 月 24, 2024 | Linux , Ubuntu , Windows
Wubuntu(全名為 Windows Ubuntu)是一款基於 Ubuntu 的作業系統,在提供與 Microsoft Windows 相似的主題和工具,但不需要高規格的系統要求,並且可以在 linux 環境下使用 exe 檔案和 Android 應用,也可以支援 Nvidia 顯卡和繁體中文。
Wubuntu
主要特色:
Windows 應用程式相容性 :透過優化的 Wine,讓Wubuntu 能夠順暢地執行多種 Windows 平台的應用程式。
Android 和 PlayStore 相容性 :內建的 Android 子系統允許直接從 PlayStore 安裝遊戲和應用程式。
適用於舊硬體設備 :Wubuntu 不需要特殊的硬體要求,只需裝置支援 64 位元即可。
最新版本:
Wubuntu 的最新版本基於 Kubuntu 24.04.1 LTS,代號為「Winux」或「Windows Theme Over Linux」。
硬體需求:
64 位元雙核心 CPU
2 GB 記憶體(建議 4 GB)
20 GB 硬碟空間(建議使用 SSD)
PowerTools:
這是一組工具,提供類似於 Windows 系統的控制面板和設定,以及增強的 Windows 和 Android 子系統支援,還可以上網用 OneDrive 和 Google Drive。
下載與支援:
使用者可以透過官方網站下載 Wubuntu 的最新版本,安裝檔案是 ISO 檔案,是可以用 VM 安裝或是用 USB 隨身碟安裝。
採用 Hyper-V
開機的安全性選項要選擇 Microsoft UEFI
注意事項:
Wubuntu 可能涉及一些版權和商標問題,以及使用者資料處理方面的爭議。
by rainchu | 7 月 31, 2024 | AI , Chat
2024/07 相信 AI 界最火的是 Microsoft 推出的 GraphRAG 了,看起來很簡單,但坑也不少,網路上教學很多,我這邊專門做一集推坑以及救贖的文章
訓練價格過高
用便宜模型 gpt-4o-mini
llm:
api_key: ${GRAPHRAG_API_KEY}
type: openai_chat # or azure_openai_chat
model: gpt-4o-mini
model_supports_json: true # recommended if this is available for your model.
用 local ollama, vllm, LM Studio
要用 ollama 的話,要先安裝 ollama 的庫
並且用別人已經改好的程式碼
git clone https://github.com/TheAiSingularity/graphrag-local-ollama.git
執行細節可以看
https://medium.com/@vamshirvk/unlocking-cost-effective-local-model-inference-with-graphrag-and-ollama-d9812cc60466
VIDEO
視覺化模型
請下載 Gephi
打開 settings.yaml 並且找到 snapshots 將 graphml 打開,這樣子在 index 的時候就會幫你生成 .graphml 的檔案,之後就可以用 Gephi 去編輯他
snapshots:
graphml: true
raw_entities: true
top_level_nodes: true
參考資料
GraphRAG Github
https://github.com/microsoft/graphrag
by Rain Chu | 3 月 26, 2024 | AI , Chat
想要做自己的 chatGPT ? 想要用自己的 DATA 訓練機器人? 不知道甚麼是 VectorDB,或是想要企業的聊天機器人應用? 還是想要結合EXCEL回答問題,還是想用機器人幫你完成各式各樣的任務。
第一步驟推薦看下面的文章
GitHub – xuhaoruins/Azure-OpenAI-App-Innovation-Workshop
Azure_App_Innovation_Inspiration_Demo · Streamlit (haxu.dev)
近期留言