Select Page
MarkItDown 教學:微軟開源神器,一鍵把 PDF、Word、PPT 轉成 AI 可讀 Markdown

MarkItDown 教學:微軟開源神器,一鍵把 PDF、Word、PPT 轉成 AI 可讀 Markdown

在 AI 時代,「讓 AI 看懂文件」變成一個非常關鍵的能力,但現實世界的資料格式五花八門,從 PDF、Word 到 PPT、甚至影片與音訊,這些內容對 AI 來說其實並不好直接處理。

這時候,MarkItDown 就成為一把真正的「文件瑞士刀」。

由 Microsoft 開源推出,MarkItDown 能將各種格式的檔案,一鍵轉換成乾淨、結構化、AI 友善的 Markdown,讓 ChatGPT、Claude 或各種 AI Agent 能輕鬆理解與分析。

你只要把 https://github.com/microsoft/markitdown 網址貼給 agent ,請他安裝就可以了


🚀 為什麼 MarkItDown 這麼強?

MarkItDown 最大的優勢只有一句話:

👉 幾乎什麼格式都能轉,而且還轉得漂亮

📂 支援格式(強到誇張)

🧾 辦公文件

  • PDF
  • Word(DOCX)
  • PowerPoint(PPTX)
  • Excel(XLSX / XLS)

🌐 網頁內容

  • HTML
  • 直接輸入 URL 解析整個頁面

🖼️ 影像檔

  • JPG / PNG
  • 支援 OCR 文字辨識
  • 可搭配 AI 產生圖片描述

🎧 音訊檔

  • WAV / MP3
  • 自動語音轉文字(Speech-to-Text)

📊 資料格式

  • CSV / JSON / XML

📦 其他進階格式

  • ZIP(自動解壓並轉換)
  • Outlook 郵件
  • YouTube(自動擷取字幕)
  • EPub 電子書

✨ 不只是轉檔,而是「結構理解」

很多轉檔工具的問題是:

👉 轉出來變成一坨純文字(完全不能用)

但 MarkItDown 不一樣,它會:

  • 保留標題層級(# ## ###)
  • 還原表格結構
  • 保留清單與段落
  • 維持超連結

👉 轉出來就是 AI 可以直接理解的 Markdown 結構

這對以下應用非常關鍵:

  • RAG(檢索增強生成)
  • AI 文件摘要
  • Agent 自動閱讀文件

⚡ 安裝與使用(超簡單)

安裝

pip install "markitdown[all]"

👉 如果只需要特定格式:

pip install "markitdown[pdf,docx,pptx]"

CLI 使用

markitdown 報告.pdf -o 報告.md

Python 使用

from markitdown import MarkItDownmd = MarkItDown()
result = md.convert("文件.docx")print(result.markdown)

👉 幾行程式碼就搞定


🤖 搭配 AI:威力直接翻倍

MarkItDown 真正強的地方,是它「原生為 AI 設計」。

🧠 AI 圖片理解

  • 可串接 OpenAI 視覺模型
  • 自動產生圖片描述
  • 讓 AI 看懂圖片內容

🔍 OCR 文字辨識

  • 整合 Azure Document Intelligence
  • 可讀取掃描 PDF / 圖片文字

🔌 MCP(Model Context Protocol)整合

  • 可直接接入 Claude Desktop
  • 或各種 AI Agent 系統

👉 這點對在做 AI Agent / LangChain / 自動化流程 特別重要


🧩 外掛系統

  • 可自訂格式解析
  • 支援企業客製流程

📌 實際應用場景

1️⃣ 餵 AI 吃文件(超省 Token)

👉 先轉 Markdown,再丟 AI

效果:

  • Token 減少最多可達 80%
  • AI 理解更準確

2️⃣ 建構企業知識庫(RAG)

流程:

文件 → MarkItDown → Markdown → Embedding → Vector DB

👉 完整 AI 知識庫 pipeline


3️⃣ AI Agent 文件閱讀能力

在你的 Agent 流程中加入:

文件 → MarkItDown → LLM 分析

👉 Agent 直接具備「讀文件能力」


4️⃣ 會議紀錄自動化

錄音 → 轉文字 → Markdown → AI整理

👉 自動產出結構化會議紀錄


⚠️ 不是萬能

MarkItDown 雖然強,但有幾個限制:

  • 複雜圖表(Chart / Graph)解析較弱
  • 高度排版文件可能失真
  • 不適合做「高保真排版還原」

👉 如果你要的是「完美排版還原」

建議用:
👉 Pandoc

👉 如果你要的是「讓 AI 看懂」
👉 MarkItDown 完勝


🧠 結論:AI 時代的文件標準工具

MarkItDown 解決了一個非常關鍵但常被忽略的問題:

👉 AI 看不懂文件格式

它的價值在於:

  • ✅ 超廣格式支援
  • ✅ 保留結構(不是純文字)
  • ✅ 原生為 AI 設計
  • ✅ 可整合 Agent / RAG / 自動化流程
  • ✅ 免費開源

👉 如果你正在做:

  • AI Agent
  • 文件分析
  • 自動化流程
  • 知識庫建構

MarkItDown 是 AI Agent 必裝工具。

Microsoft PowerToys 介紹

PowerToys 是一套由在 Windows 95 就開始用到現在的 Microsoft 開發實用工具集合,專為提高 Windows 使用者生產力和使用體驗而設計,PowerToys 提供了許多高效能的工具,幫助使用者完成日常任務,近年來,Microsoft 將其重新打造為開源專案,並為 Windows 10 和 Windows 11 提供支持。

PowerToys 在 Windows 10, 11 新增功能介紹

進階貼上(Advanced Paste)

此工具允許使用者將剪貼簿中的文字以所需格式貼上,並提供 AI 支援的選項來強化貼上功能。

Always On Top

使用此功能,您可以透過快捷鍵 Win + Ctrl + T 將視窗固定在其他視窗之上,確保重要視窗不被遮蓋。

PowerToys Awake

此工具可讓電腦保持清醒狀態,無需調整電源和睡眠設定,適合執行長時間任務時使用。

File Locksmith

此功能可檢查哪些檔案正在使用中,以及由哪些程序使用,方便管理檔案鎖定狀態。

主控件檔案編輯器(Hosts File Editor)

提供方便的方式來編輯包含網域名稱和相符 IP 位址的「Hosts」檔案,便於網路管理。

無框線的滑鼠(Mouse Without Borders)

允許使用相同的鍵盤和滑鼠與多部電腦互動,順暢地在電腦之間共用剪貼簿內容和檔案。

New+

此功能可讓您從檔案總管中的一組個人化範本建立檔案和資料夾,提升工作效率。

預覽(Peek)

允許您預覽檔案內容,而不需要開啟多個應用程式或中斷工作流程,選取檔案並使用快捷方式 Ctrl + 空格鍵 即可。

螢幕尺規(Screen Ruler)

螢幕尺規是一個實用工具,允許使用者快速測量螢幕上的像素,對於設計師和開發者來說特別有用。 只需按下快捷鍵 Win + Shift + M,即可啟動螢幕尺規,選擇測量方式,量度的像素將顯示在螢幕上。


PowerToys 的主要功能介紹:


1. FancyZones

FancyZones 是一個窗口管理工具,讓使用者可以輕鬆定義自訂的視窗佈局。這對於需要多任務處理的人來說非常實用,例如在多螢幕或高解析度顯示器上,同時排列多個應用程式視窗。

功能亮點

  • 設定自訂區域佈局
  • 快速分配應用程式到區域
  • 支持鍵盤快速操作

2. PowerToys Run

這是一個快速啟動器,類似於 macOS 的 Spotlight,可以幫助使用者快速找到應用程式、檔案,甚至執行系統命令。

功能亮點

  • 即時搜尋結果
  • 支持插件擴展
  • 可啟動 URL、執行腳本

3. Keyboard Manager

Keyboard Manager 是一個鍵盤重映射工具,讓使用者根據自己的需求修改鍵盤快捷鍵或重新定義按鍵。

功能亮點

  • 支持單鍵和組合鍵重映射
  • 適合想提升工作流程的使用者

4. Color Picker

Color Picker 是一個顏色選取工具,特別適合設計師和開發者。使用者可以快速提取螢幕上任意位置的顏色,並獲得 HEX、RGB 等格式。

功能亮點

  • 即時顏色選取
  • 支持多種顏色格式
  • 可加入快捷鍵觸發

5. File Explorer Add-ons

這個工具提供了多種檔案預覽功能,讓使用者可以直接在檔案總管中檢視支援格式的內容,例如 SVG、Markdown 和 PDF 等。

功能亮點

  • 提供更多檔案格式預覽支持
  • 簡化檔案瀏覽

6. Text Extractor

Text Extractor 是一個 OCR 工具,允許使用者從圖片中提取文字。這在需要快速複製文件或截圖中的內容時特別有用。

功能亮點

  • 支持多語言識別
  • 即時文字提取

7. Mouse Utilities

這是一組滑鼠輔助工具,幫助使用者更輕鬆地找到滑鼠指標或執行高精度點擊。

功能亮點

  • 滑鼠高亮
  • 快速定位滑鼠指標

8. Image Resizer

Image Resizer 是一個影像大小調整工具,可以直接在檔案總管中調整圖片大小,適合需要快速批次處理影像的使用者。

功能亮點

  • 支持多種解析度
  • 批次調整大小
  • 不影響原始圖片品質

為什麼選擇 PowerToys?

  • 免費且開源:PowerToys 是一個完全免費的工具,並且基於開源社群開發,功能持續更新。
  • 高度客製化:所有工具都可以根據使用者需求進行自訂設置。
  • 整合 Windows 生態系統:與 Windows 的原生功能深度整合,使用者不需要額外安裝繁瑣的軟體。

結論

可以透過 GitHub PowerToys 頁面 下載並探索更多功能。

Wubuntu:結合 Windows 外觀與 Ubuntu 穩定性的全新OS

Wubuntu:結合 Windows 外觀與 Ubuntu 穩定性的全新OS

Wubuntu(全名為 Windows Ubuntu)是一款基於 Ubuntu 的作業系統,在提供與 Microsoft Windows 相似的主題和工具,但不需要高規格的系統要求,並且可以在 linux 環境下使用 exe 檔案和 Android 應用,也可以支援 Nvidia 顯卡和繁體中文。

Wubuntu

主要特色:

  • Windows 應用程式相容性:透過優化的 Wine,讓Wubuntu 能夠順暢地執行多種 Windows 平台的應用程式。
  • Android 和 PlayStore 相容性:內建的 Android 子系統允許直接從 PlayStore 安裝遊戲和應用程式。
  • 適用於舊硬體設備:Wubuntu 不需要特殊的硬體要求,只需裝置支援 64 位元即可。

最新版本:

Wubuntu 的最新版本基於 Kubuntu 24.04.1 LTS,代號為「Winux」或「Windows Theme Over Linux」。

硬體需求:

  • 64 位元雙核心 CPU
  • 2 GB 記憶體(建議 4 GB)
  • 20 GB 硬碟空間(建議使用 SSD)

PowerTools:

這是一組工具,提供類似於 Windows 系統的控制面板和設定,以及增強的 Windows 和 Android 子系統支援,還可以上網用 OneDrive 和 Google Drive。

下載與支援:

使用者可以透過官方網站下載 Wubuntu 的最新版本,安裝檔案是 ISO 檔案,是可以用 VM 安裝或是用 USB 隨身碟安裝。

採用 Hyper-V

開機的安全性選項要選擇 Microsoft UEFI

注意事項:

Wubuntu 可能涉及一些版權和商標問題,以及使用者資料處理方面的爭議。

GraphRAG與我踩過的坑

GraphRAG與我踩過的坑

2024/07 相信 AI 界最火的是 Microsoft 推出的 GraphRAG 了,看起來很簡單,但坑也不少,網路上教學很多,我這邊專門做一集推坑以及救贖的文章

訓練價格過高

用便宜模型 gpt-4o-mini

llm:
  api_key: ${GRAPHRAG_API_KEY}
  type: openai_chat # or azure_openai_chat
  model: gpt-4o-mini
  model_supports_json: true # recommended if this is available for your model.

用 local ollama, vllm, LM Studio

要用 ollama 的話,要先安裝 ollama 的庫

pip install ollama

並且用別人已經改好的程式碼

git clone https://github.com/TheAiSingularity/graphrag-local-ollama.git

執行細節可以看

https://medium.com/@vamshirvk/unlocking-cost-effective-local-model-inference-with-graphrag-and-ollama-d9812cc60466

視覺化模型

請下載 Gephi

打開 settings.yaml 並且找到 snapshots 將 graphml 打開,這樣子在 index 的時候就會幫你生成 .graphml 的檔案,之後就可以用 Gephi 去編輯他

snapshots:
  graphml: true
  raw_entities: true
  top_level_nodes: true

參考資料

GraphRAG Github

https://github.com/microsoft/graphrag

如何踏出開發 Microsoft OpenAI API 的第一步

如何踏出開發 Microsoft OpenAI API 的第一步

想要做自己的 chatGPT ? 想要用自己的 DATA 訓練機器人? 不知道甚麼是 VectorDB,或是想要企業的聊天機器人應用? 還是想要結合EXCEL回答問題,還是想用機器人幫你完成各式各樣的任務。

第一步驟推薦看下面的文章

GitHub – xuhaoruins/Azure-OpenAI-App-Innovation-Workshop

Azure_App_Innovation_Inspiration_Demo · Streamlit (haxu.dev)