将网页转换为Markdown的免费在线转换工具
将网页转换为Markdown并轻松将其复制到剪贴板的免费转换工具:
https://tools.simonwillison.net/jina-reader
这是基于Jina 提供了一个Reader API,它可以将任何 URL 转换为 LLM 友好的 Markdown,而且事实证明它支持 CORS
Github地址
特点
- 将任何网站转换为 markdown
- LLM 过滤
- markdown 模式详解
- 自动爬虫(不含站点地图!)
- 文本和 JSON 响应
- 易于自主托管
- ... 所有这些以及更多内容都是免费的!
在底层,Markdowner 利用 Cloudflare 的浏览器渲染和Durable 对象来启动浏览器实例,然后使用 Turndown 将其转换为 markdown。
什么是Jina ?
将网络信息输入 LLM 是接地的一个重要步骤,但也很有挑战性。 最简单的方法是抓取网页并输入原始 HTML。 然而,抓爬可能很复杂,而且经常会被阻止,原始 HTML 会被标记和脚本等无关元素所干扰。
Jina 阅读器应用程序接口(Reader API)可以解决这些问题,它可以从 URL 中提取核心内容,并将其转换为简洁、LLM 友好的文本,确保为您的代理和 RAG 系统提供高质量的输入。
如果网址是https://example.com,只要在网址前面加上https://r.jina.ai/即可:
https://r.jina.ai/example.com
另外一工具:提取 URL
从网页复制内容并粘贴到此处以提取链接的 URL
- 这个工具可以让你从网页上复制一个区域,将其粘贴到工具中,并返回一个链接到该文本中的URL列表
- 适合想一次获取一大堆URL
类似Chrome插件:Web clipper
类似工具:urltomarkdown. com
类似FireFox插件:
- https://addons.mozilla.org/en-US/firefox/addon/markdown-collector/