快速采集中文期刊网站丨数据、规则一起送

2019-12-18 16:57:51 浏览:3338

采集地址:

http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index

QQ截图20191218165226.png

采集字段:

标题,摘要、作者、出处、作者简介、邮箱

采集结果:

使用“互联网”作为关键词进行搜索采集搜索结果,并保存到Excel。


1、下载火车采集器
输入网址 www.locoy.com 进入火车官网,随后点击下载来获取火车采集器最新版本

QQ截图20191218165301.png

2、注册并登录火车采集器
在网站进行注册,注册好账号直接登录即可。
3、打开爬取网站,确定真实地址

首先先点击下一页,发现网址没有改变,说明这个网址需要通过抓包来获取真实地址。

打开fiddler,点击下一页进行抓包,使用Ctrl + F 查找有数据的网址,点击进去发现确实是我们需要的真实网址。


QQ截图20191218165337.png

QQ截图20191218165356.png

4网址是POST类型的,查看POST提交的数据发现是编码过的,可以用工具转码,再点击下一页,进行抓包,对比两次抓包的数据,只有PageNum发生了变化,也就是分页,所以网址采集规则可如下设置。

QQ截图20191218165418.png



5接下来开始采内容,要采集的几个字段内容源码中都存在,直接从源码获取即可,这里标题标签可以先用h1截取,然后用内容替换和HTML标签过滤将不需要的内容去除,其他几个标签设置方法类似。

QQ截图20191218165436.png



6值得一提的是,邮箱是从作者简介里提取的,这里可以使用组合标签来获取作者简介的内容,在数据处理里使用智能提取邮箱功能来自动获取内容里的邮箱信息。

QQ截图20191218165620.png


7最后,保存到本地Excel。

QQ截图20191218165540.png





本次每周一数赠送的是中文期刊数据+采集规则,仅限火车软件的商业版本用户。不符合领取条件的可参加正在进行的火车双十二年终回馈活动,活动还剩最后两天。消费达到1500元更是可以领取2019年整年每周一数的所有数据,赶紧参加吧!

最后两天.png

本周每周一数领取时间:2019年12月18 日发文后5个工作日内(节假日除外)
领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。

微信图片_20191024173419.jpg



扫码关注微信