文档转markdown实测 - 微软markitdown
来源:黄建同学
微软markitdown出来之后,广受欢迎,今天我们来实测一下看看效果如何!
微博:
github:
测试时间:2024-12-16
1. 代码
比较简单,和github项目写的一样
PDF中的图片丢失,而且PDF里面的段落结构/标题/粗体也没有体现出来。
我试了一下以下代码,尝试用LLM去分析图片,一样的效果(看来LLM分析只适合图片分析)
输出内容包括Slide分割、每张Slide的标题和正文
图片输出为"内容占位符3.JPG",有点奇怪
3. Word文档
保留大标题,小标题,图片有识别,转成一段base64的占位data
4. Excel文件
需要切换到以下代码,通过LLM来识别图像。
能够借助LLM识别并分析图片的内容
6. Audio音频
不支持中文音频,支持英文音频
尝试了传入LLM来解析中文音频,也不支持。
7. HTML文件
Head 标签里面的内容都没输出,其他内容正常。