AI编写的网页解析器

五一假期时间，把节前在开发的软件肝完了，软件虽然还很青涩，但已经算是有了软件雏形，至少现在能够满足自己的数据采集的需求了。

本来做这个软件是为了做小程序的数据，小程序搁置了，先把这个软件捣鼓出来。

好了，接下来先介绍下软件的功能：

看上去好像功能不多，开发也不难，嗯，虽说不难，其实也不容易。要教会AI领会我的设计思路，的确挺费劲，特别是五一期间，我花了非常多的时间重构软件，在代码屎山里徜徉，你想，想想就刺激。

软件使用Trac作为开发工具，Python语言开发，在UI交互上花了不少心思，效果还过得去。

先来张截图截预览下

一、在线解析模块

这个模块本着傻瓜式的操作来设计的，2步操作，一选模板，二解析，完成操作。

左侧是模板列表，在模板管理中创建好的模板会在这里显示，点击一个模板后，再点击右边的绿色按钮“开始解析”，软件解析器便开始工作，直到结果呈现，如下图

二、模板管理

模板管理是软件的核心功能，用于对特定页面创建解析模板，在这里为要获取的网页数据元素定义规则，想要获取什么数据，就加入一条规则，定义好之后，进行【开始解析】按钮进行解析。

如果规则有错误或者获取不到数据，系统会提示，否则你同样可以看到在线解析模块中的同样的数据结果。

这个模块主要分为3个板块：

1、解析方式板块：分为在线解析、文件解析、代码解析。前边介绍的在线解析模块实际上就是这里的在线解析中输入的URL地址解析。文件解析主要应对在线解析不成功的情况下，我们将网页下载下来，放在本地电脑上进行解析。代码解析是HTML代码解析，一般人用不上，这里不做赘述。

2、规则设置板块：

获取元素的选择器，我推荐使用XPath，至于如何获取XPath，也不难。比如我要获取如下页面红框的最新文章列表，接下来的步骤就是定位要采集数据元素，以便在网页采集器中定义规则。

1）获取网页元素

在浏览器中按F12，浏览器右侧栏会打开开发者工具，点击最左上角的图标，然后在网页中移动到需要的数据位置，此时鼠标在网页上移动时，浏览器会自动框选网页元素，在你想采集的数据上单击，就完成了定位。如下图：

选中元素后，在右侧的蓝色背景的区域单击鼠标右键，选择复制 → 复制XPath，如图：

这样就获得了数据的XPath，我们再回到软件界面，将复制的数据填写在选择器表达器中，添加规则到规则表格，这样一条数据的规则就设计好了。

规则设置好后，点击【开始解析】，便可知设置的规则是否可用，如果获取不到数据系统会提示，如果所有规则都正确，下方结果区域会看到解析到的数据。并且可以点击右侧蓝色的导出数据按钮，选择导出文件格式。

解析成功说明你的解析规则都没问题了，记得将这个模板保存，下次就可以直接使用，不需要再操作设置规则的一系列繁琐动作了。

【保存模板】功能将配置好规则的模板保存起来，方便以后调用。

2）文件解析

当在线解析不能成功时，可以尝试将该网页保存下来，然后使用文件解析将下载下来的html文件选中，然后再【开始解析】，这样同样可以达到解析到数据的目的。

3）HTML代码解析

HTML代码解析，功能与文件解析显相似，只不过将选择文件换成了粘贴HTML代码。一般来说，使用的几率比较小。

三、设置中心

设置中心模块，用于软件的相关设置，目前只提供了极少的设置功能。功能虽少，但也很必要。

数据标题设置，决定导出数据的表头显示中文名称还是英文键名；

导出文件名设置，决定了数据导出的文件名的生成规则：

四、关于AI编程

这个软件是我的一个AI编程作品，经历了太多与AI相爱相杀，总体来说，若要开发出业务逻辑较复杂的软件，AI编程的路还很长。即使如此，这也是必须要经历的一段路程。

点击这里复制本文地址以上内容由朽木教程网整理呈现，请务必在转载分享时注明本文地址！如对内容有疑问，请联系我们，谢谢！