每周一数丨(赠送数据+规则)旅游网站数据采集,小采陪你一起看看这世界

2019-11-15 14:21:14 浏览:2735

点击关注▲火车采集器

导读每周一数活动是小采赠送给所有商业版本用户的一个福利,每周都会筛选用户需求选择网站进行爬取数据,并会附带采集规则,让用户举一反三,在更多场景中更好的使用小采。
领取范围:火车采集器、火车浏览器、触控精灵三款软件的商业用户,软件需在服务期限内。
领取规则:添加文章内火车运营微信后,将会被拉入“每周一数福利群”,加群后私聊 客服·雅 就可。
领取内容:网站旅游文章数据以及采集规则,如下图

QQ截图20191115141548.png

1、下载火车采集器
输入网址 www.locoy.com 进入火车官网,随后点击下载来获取火车采集器最新版本

QQ截图20191115141625.png

2、注册并登录火车采集器
在网站进行注册,注册好账号直接登录即可。
3、确定今日爬取的网站
采集网址:http://bbs.52sahala.com/forum-118-1.html

QQ截图20191115141659.png

采集字段: 城市、标题、内容(前两页楼主发布的内容)
保存:导出到HTML
4、开启爬取
首先,起始网址的设置
点击下一页地址,可以发现变化的只有最后一个数字,所以分页设置可以使用批量网址功能

QQ截图20191115141732.png

Ctrl+U查看源码,城市和标题可以在列表页标签采集

QQ截图20191115141756.png

因为帖子下面还有其他网友的回答,为了方便只采集作者发布的内容,我们可以点击只看作者
这个的链接我们在二级列表里采集,只看该作者的链接提取第一个就可以,可以在写提取规则时多写一部分来让它只能匹配到一个,如下图所示

QQ截图20191115141819.png

5、接下来,进入内容页采集
列表页设置的城市标签 内容没做处理,会采集到a标签,这里在数据处理里将标签过滤

QQ截图20191115141843.png

这里需要采集前两页的内容,需要设置内容分页,也是从源码中查看分页地址

QQ截图20191115141907.png

因为只采集前两页内容,所以需要设置下,点击内容分页设置下面的其他设置,可以修改采集的内容分页数量
内容页提取规则,这里我们选择的是使用 xpath 提取(关于xpath的写法,大家百度下就可以找到),数据来源记得要改成从默认页和内容分页源码中获取

QQ截图20191115141930.png

然后使用数据处理功能清洗数据,将一些不需要的内容删除,内容里图片可以点击下面的文件下载,如图设置,即可将图片下载到本地,由于网址中图片太多,本次实际没有勾选下载

QQ截图20191115141954.png

6、最后我们将采集的数据导出到本地HTML文件里,可以根据需要修改模板文件

QQ截图20191115142029.png


本次每周一数赠送的依然是数据+采集规则,仅限火车软件的商业版本用户哦
领取时间:2019年11月14 日发文后5个工作日内(节假日除外)
领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。

QQ截图20191115142048.png

长按二维码回复:资源


扫码关注微信