【58同城】火车采集器V9采集58同城租房信息

2018-05-31 17:43:19 浏览:3668


今天再来分享一个58同城的一个规则,分享这个规则正好是有用户提到,里面有用到网址采集的自定义列表和数据处理中的时间自动修正功能,觉得有必要和大家说下。


【案例讲解】

今天的规则以采集58同城泉州租房信息为例,入口网址为:http://qz.58.com/chuzu/

1.png

大家打开网站,参照上图,我们要采集上图红框中每个区域的信息,今天这里使用自定义列表功能进行采集。
第一步:网址采集
我们先来看看网址采集的设置,如下图:

2.jpg

这里我们使用了两个地址参数

第一个地址参数,我们点击编辑,选择自定义列表,然后列表中输入每个区域的网址,参照上图。

3.jpg

然后第二个参数设置是大家常见的数字变化递增形式,我们这里设置5页,参照上图。

4,jpg.jpg

然后是内容网址的设置,这个也很简单,参照上图。

第二步:内容采集

内容采集每个标签就不一一讲解了,都是比较常见,之前说过的,今天主要讲下,时间的采集和时间自动修正功能。

5.jpg

我们在采集的时候会经常遇到一个网站的时间显示为"1天前"、”5小时前“类似这样的,如上图。

那我们在采集的时候,如果直接采集下来,那们在发布到自己网站时就会有问题,有可能时间格式不对发布不了。

最主要的是这是当前显示的时间,那到了明天这里的时间就不能再是1天前了,所以我们把这个”1天前“变成实际时间,如”2017-07-19 17:20“。

强大的火车采集器早为大家提供了解决方法。

6.jpg

参照上图,在数据处理中,添加“间修正转化”即可,采集到的时间就会自动变为数字时间格式,就是这么简单。

7.JPG

另外我们这里用到几个替换,58同城的时间格式只有月日 如07-16 我们希望在前面加一个2017变成201-07-16,我们这里可以使用替换功能,参照上图设置即可。不过这样还没有结束,因为我们使用了时间修正功能,而时间修正功能本身就会自动加上2017,那么就会出现2017-2017-07-16 那就多一个2017,同样我们使用替换功能,在后面再一个替换,参照下图设置。

1.png

其他的标签采集比较简单了,大家可以自行看看学习下。

9.jpg

如果将本规则导入到采集器不能采集网址,打开网址设置像上图一样,那就是你的版本低于V9.4,这里自行修改下网址设置就行,按照第一步的介绍。


注:本规则采集58同城网泉州租房信息为例,本规则免费版用户可使用,本规则的电话只能采集经纪人的电话,个人的电话不可采集,58网站有防采集,如果采集太快有可能会出现验证码。





联系我们
客服QQ:800019423
客服电话:400-8757-060


软件购买:http://www.locoy.com/buy

扫码关注微信