MarkItDown-MCP:通过MCP一键搞定N种办公文件转Markdown

MarkItDown-MCP:通过MCP一键搞定N种办公文件转Markdown

技术教程gslnedu2025-07-02 3:02:334A+A-


简介

MarkItDown 是一个轻量级的 Python 实用程序,用于将各种文件转换为 Markdown,以便在大型语言模型和相关文本分析管道中使用。在这方面,它最类似于 textract,但更加注重保留重要的文档结构和内容为 Markdown 格式(包括:标题、列表、表格、链接等)。虽然输出通常看起来相当整洁且适合人类阅读,但它旨在被文本分析工具使用 —— 对于高保真文档转换以供人类阅读可能不是最佳选择。

项目地址:https://gitcode.com/gh_mirrors/ma/markitdown?utm_source=csdn_github_accelerator&isLogin=1

MarkItDown-MCP 提供了一个 MCP(模型上下文协议)服务器,用于与 Claude Desktop 等大型语言模型应用集成。

项目地址:https://kkgithub.com/microsoft/markitdown/tree/main/packages/markitdown-mcp


主要特点

多格式支持:轻松转换 PDF、Word、PowerPoint、Excel、图片、音频、HTML 等多种格式

结构保留:自动保留标题、列表、表格、链接等重要文档结构

MCP 协议:提供 Model Context Protocol 服务器,可直接与 Claude Desktop 等 LLM 应用无缝集成

AI 友好:生成的 Markdown 格式对大语言模型特别友好,提高处理效率

插件扩展:支持第三方插件,可以扩展更多功能

集成能力:可与 Azure Document Intelligence 集成,提高复杂文档的处理能力

图像描述:支持使用大语言模型为图像生成描述,增强内容理解

轻量灵活:按需安装依赖,只选择需要的功能模块


核心功能与协议支持

  1. 多协议适配

支持STDIO(默认)、Streamable HTTP和SSE三种通信协议,可通过命令行参数切换。

提供统一的工具接口convert_to_markdown(uri),支持http/https/file/data协议的资源转换。

  1. MCP协议扩展性

兼容MCP Config JSON配置,可集成到Claude Desktop等支持MCP协议的客户端。

支持自定义请求头与重连策略,适配不同认证场景。


容器化部署方案

  1. Docker集成

通过-v参数挂载本地目录(如/home/user/data),容器内路径映射为/workdir。

推荐使用Docker镜像运行,避免环境依赖冲突。

  1. Claude Desktop配置

需在claude_desktop_config.json中添加MCP服务器配置,指定Docker命令及挂载参数。


调试与开发支持

  1. 调试工具链

使用mcpinspector工具(通过npx @modelcontextprotocol/inspector安装)连接服务端。

  1. 支持三种连接方式:

STDIO:直接输入markitdown-mcp命令;

Streamable HTTP:URL为http://127.0.0.1:3001/mcp;

SSE:URL为http://127.0.0.1:3001/sse。

  1. 工具测试流程

在调试器中点击List Tools→convert_to_markdown,输入URI测试转换功能。

点击这里复制本文地址 以上内容由朽木教程网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

朽木教程网 © All Rights Reserved.  蜀ICP备2024111239号-8