WEB页面采集器编写经验之一：静态页面采集器_html/css_WEB-ITnose

严格意义来说，采集器和爬虫不是一回事：采集器是对特定结构的数据来源进行解析、结构化，将所需的数据从中提取出来；而爬虫的主要目标更多的是页面里的链接和页面的TITLE。

这个URL代表以“MOLLE”“II”两个关键词搜索，当前页面是是第四页。FIRST参数指的是本页第一个显示的搜索结果的索引号，第四页显示31-40个搜索结果。

这是用GET方式传递参数，大多数情况下都是这样的。如果目标页面用POST方式传递参数，用浏览器的开发者模式抓个包看看参数是啥就OK了。

然后我们就下载到了目标页面，将其在正则表达式测试器里打开：

恩，这活儿干得多了干脆自己写了一个趁手的工具。

我们的目标是提取到搜索结果里的链接文字和链接URL。对于需要从同一个页面解析得到两项或者多项相互对应的数量一样的数据，也有两种策略：根据这些数据不同的特征直接编写表达式从页面里提取目标数据（比如先用一个正则处理页面，拿到所有的链接标题文字，再用一个正则处理页面，拿到所有的链接URL），或者分析页面结构，找到包含目标数据项的最小页面结构（比如html表格里的表格行元素），再进行解析。其中后者更靠谱一点，也可以省去很多干扰，但稍微麻烦一些。以下以后一种方式进行介绍。

用浏览器的检查工具（Chrome里以前叫查看元素，新版改叫检查了，刚刚还找了半天）分析页面代码，我们可以发现所有的搜索内容都包含在一个id属性为"b_results"的标签里。编写表达式对其进行提取：

对于解析HTML用到的正则，零宽断言和逆序环视（查找）是经常用到的，用于提取带有特定前缀和后缀的字符串。有关正则表达式的技术博客园已经有很多相关文章，这里不再赘述。

不过需要注意的是，对于.net的正则表达式库，有一些开关需要注意。对于解析html的时候，经常需要将SingleLine参数选中，这样引擎会把字符串里所有的回车当成普通字符，而不是当成一行数据的结尾。不过这也并非绝对，也需要根据实际情况进行灵活配置。

另外还有一个小技巧。在移动端盛行的今天，一些网站会根据用户浏览器请求里的USER-AGENT提供不同的页面，对手机端发起的请求就会提供手机版的页面，出于节省客户流量的考虑，一般手机版的页面会比PC端的干净一些，页面噪音更少。

继续回到页面解析，刚刚已经找到包含所有目标元素的页面结构，实际上如果发现目标数据的最小结构的特征在页面里也是唯一的，直接提取也无妨：

这样我们就拿到了所有包含目标数据的标签的内容。顺带一提，因为截图里工具使用的NOKIA手机的USER AGENT，所以我拿到的是手机版的页面，和PC版略有不同，更干净一点。

下一步我们对每个元素进行解析。由于所有li标签的格式结构都是一样的，我们可以用同一套正则解析。

我们的目标是链接标题和链接URL，说白了，就是标签的href属性和标签内容。

直接写表达式就好：

然后对于每个li标签的内容使用同样的表达式进行处理就OK了。

好了，采集器的基本原理介绍完毕，我自己写的这个正则工具可以我博客里找到，各位使用愉快，欢迎报BUG和功能建议。

下一篇将会介绍一下动态页面数据获取。

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did114170

更新时间：2022-11-17 阅读：58次