Let's GitHub

资源分类

图片视频音频效率开发编程AI文档资源

热门标签

pdf
MarkItDown

MarkItDown-微软开源多格式文档转Markdown工具,适配LLM/RAG场景的结构化转换

文档

MarkItDown 是微软推出的轻量级开源文档转换工具,专为大语言模型(LLM)和检索增强生成(RAG)场景设计,可将PDF、Word、图片、音频等数十种格式的文件转为结构化Markdown文本。工具优先保留标题、列表、表格、链接等语义结构,而非单纯视觉还原,输出内容更适配LLM的文本分析与处理需求。支持命令行、Python API双调用方式,兼容流处理、插件扩展与MCP协议,还提供C#/.NET、TypeScript、Go等多语言移植版本。无论是批量文档索引构建、多媒体内容提取,还是Office/网页向Markdown的迁移,MarkItDown都能以高效、轻量化的方式完成,是开发者与AI应用场景的理想文档处理工具。

MITMarkdown转换LLM适配RAG多格式解析开源PythonOCR语音转写
Stirling-PDF

Stirling-PDF-功能强大的本地化PDF处理工具,支持40+种操作,完全离线部署

文档

Stirling-PDF 是一款功能全面的开源 PDF 处理工具,采用 Docker 容器化技术实现一键部署,所有处理均在本地完成,无任何出站追踪,确保文档隐私安全。项目基于 Spring Boot 框架开发,内置 40 余种 PDF 处理功能,包括拆分/合并、格式互转、OCR 文字识别、数字签名、权限加密、元数据编辑等。它提供了清新友好的 Web 界面和完整的 REST API 接口,既适合个人用户搭建私有 PDF 工具箱,也可作为企业文档处理服务集成。系统支持多语言界面(含中文),在保障数据安全的前提下,实现了媲美商业软件的完整功能覆盖。

MITPDF处理DockerJavaOCR隐私保护Web工具
BentoPDF

BentoPDF-100%浏览器运行的隐私优先PDF工具,无需安装、无需上传

文档

BentoPDF 是一款革命性的客户端 PDF 处理工具,完全运行在浏览器本地,无需后端服务器、无需安装任何软件,所有文件均不上传至云端,从根源上杜绝隐私泄露。项目采用现代 Web 技术栈实现,启动速度毫秒级,内存占用极低,即使在老旧设备上也能流畅运行。除合并、拆分、压缩等基础功能外,BentoPDF 还提供了独具特色的智能去空白页、正反扫描文档交错合并、电子签名、水印添加等高级功能。其界面设计干净清爽,操作逻辑直观易懂,无需学习成本即可上手,是日常轻量级 PDF 处理的理想选择。

AGPL-3.0PDF处理隐私优先浏览器本地无服务器轻量级PWA
第 1 / 1 页,共 3 篇文章

推荐项目

思源宋体 (Source Han Serif)

与思源黑体相对应的开源宋体家族,适合印刷与正式文本。

libvips

超高性能的开源图片处理库

OpenClaw

开源自主AI智能体,通过自然语言指令直接控制计算机执行跨应用操作任务

MarkItDown

微软开源多格式文档转Markdown工具,适配LLM/RAG场景的结构化转换

Spleeter

由Deezer开发的用于音源分离的深度学习工具

Jellyfin

自由的个人媒体服务器软件

VanBlog

一款简洁优雅、支持一键部署的开源一体化博客系统

WordReview

侧重“反馈”与“记忆曲线”的本地化背单词系统

《Effective Java》笔记与源码

经典书籍《Effective Java》第三版的随书官方示例代码

相关项目

MarkItDown

微软开源多格式文档转Markdown工具,适配LLM/RAG场景的结构化转换

Stirling-PDF

功能强大的本地化PDF处理工具,支持40+种操作,完全离线部署

BentoPDF

100%浏览器运行的隐私优先PDF工具,无需安装、无需上传

© 2026 lightweb. 保留所有权利。