MarkItDown-微软开源多格式文档转Markdown工具,适配LLM/RAG场景的结构化转换
文档MarkItDown 是微软推出的轻量级开源文档转换工具,专为大语言模型(LLM)和检索增强生成(RAG)场景设计,可将PDF、Word、图片、音频等数十种格式的文件转为结构化Markdown文本。工具优先保留标题、列表、表格、链接等语义结构,而非单纯视觉还原,输出内容更适配LLM的文本分析与处理需求。支持命令行、Python API双调用方式,兼容流处理、插件扩展与MCP协议,还提供C#/.NET、TypeScript、Go等多语言移植版本。无论是批量文档索引构建、多媒体内容提取,还是Office/网页向Markdown的迁移,MarkItDown都能以高效、轻量化的方式完成,是开发者与AI应用场景的理想文档处理工具。