AI编写的网页解析器
五一假期时间,把节前在开发的软件肝完了,软件虽然还很青涩,但已经算是有了软件雏形,至少现在能够满足自己的数据采集的需求了。
本来做这个软件是为了做小程序的数据,小程序搁置了,先把这个软件捣鼓出来。
好了,接下来先介绍下软件的功能:
- 自定义网页数据元素获取规则;
- 自定义解析模板,以便于下次直接使用;
- 对于暂时还不能在线解析的情况,可以尝试下载网页本地解析;
- 支持多种数据导出(json/csv/excel/md);
- 支持多种文件名的生成;
看上去好像功能不多,开发也不难,嗯,虽说不难,其实也不容易。要教会AI领会我的设计思路,的确挺费劲,特别是五一期间,我花了非常多的时间重构软件,在代码屎山里徜徉,你想,想想就刺激。
软件使用Trac作为开发工具,Python语言开发,在UI交互上花了不少心思,效果还过得去。
先来张截图截预览下
一、在线解析模块
这个模块本着傻瓜式的操作来设计的,2步操作,一选模板,二解析,完成操作。
左侧是模板列表,在模板管理中创建好的模板会在这里显示,点击一个模板后,再点击右边的绿色按钮“开始解析”,软件解析器便开始工作,直到结果呈现,如下图
二、模板管理
模板管理是软件的核心功能,用于对特定页面创建解析模板,在这里为要获取的网页数据元素定义规则,想要获取什么数据,就加入一条规则,定义好之后,进行【开始解析】按钮进行解析。
如果规则有错误或者获取不到数据,系统会提示,否则你同样可以看到在线解析模块中的同样的数据结果。
这个模块主要分为3个板块:
1、解析方式板块:分为在线解析、文件解析、代码解析。前边介绍的在线解析模块实际上就是这里的在线解析中输入的URL地址解析。文件解析主要应对在线解析不成功的情况下,我们将网页下载下来,放在本地电脑上进行解析。代码解析是HTML代码解析,一般人用不上,这里不做赘述。
2、规则设置板块:
获取元素的选择器,我推荐使用XPath,至于如何获取XPath,也不难。比如我要获取如下页面红框的最新文章列表,接下来的步骤就是定位要采集数据元素,以便在网页采集器中定义规则。
1)获取网页元素
在浏览器中按F12,浏览器右侧栏会打开开发者工具,点击最左上角的图标,然后在网页中移动到需要的数据位置,此时鼠标在网页上移动时,浏览器会自动框选网页元素,在你想采集的数据上单击,就完成了定位。如下图:
选中元素后,在右侧的蓝色背景的区域单击鼠标右键,选择 复制 → 复制XPath,如图:
这样就获得了数据的XPath,我们再回到软件界面,将复制的数据填写在选择器表达器中,添加规则到规则表格,这样一条数据的规则就设计好了。
规则设置好后,点击【开始解析】,便可知设置的规则是否可用,如果获取不到数据系统会提示,如果所有规则都正确,下方结果区域会看到解析到的数据。并且可以点击右侧蓝色的导出数据按钮,选择导出文件格式。
解析成功说明你的解析规则都没问题了,记得将这个模板保存,下次就可以直接使用,不需要再操作设置规则的一系列繁琐动作了。
【保存模板】功能将配置好规则的模板保存起来,方便以后调用。
2)文件解析
当在线解析不能成功时,可以尝试将该网页保存下来,然后使用文件解析将下载下来的html文件选中,然后再【开始解析】,这样同样可以达到解析到数据的目的。
3)HTML代码解析
HTML代码解析,功能与文件解析显相似,只不过将选择文件换成了粘贴HTML代码。一般来说,使用的几率比较小。
三、设置中心
设置中心模块,用于软件的相关设置,目前只提供了极少的设置功能。功能虽少,但也很必要。
数据标题设置,决定导出数据的表头显示中文名称还是英文键名;
导出文件名设置,决定了数据导出的文件名的生成规则:
- 同模板名,生成的数据文件名与模板名相同,再次生成会覆盖原文件。
- 模板名+日期:是带有时间戳的文件名,不会导致文件覆盖。
- 指定文件名:用户通过对话框输入文件名,具有更高的自主性。
四、关于AI编程
这个软件是我的一个AI编程作品,经历了太多与AI相爱相杀,总体来说,若要开发出业务逻辑较复杂的软件,AI编程的路还很长。即使如此,这也是必须要经历的一段路程。