速看|火车采集器V9.11版本更新

2019-11-21 17:09:33 浏览:472


亲爱的用户:

为了给用户更好的采集体验,2019年11月21日我们进行了火车采集器的版本更新,目前火车采集器V9.11版本已正式上线。



1、★ 列表页新增“地址处理”功能

示例网址,新浪滚动新闻:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

点击下一页,抓包可获取真实地址:

        https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1


分析json数据可以得知 url 后面的是内容页网址,设置如下:

          QQ截图20191121171005.png      

 


可以看到采集的网址里有很多 \ ,导致网址无法访问,而且网址不规则,不易处理。

    

QQ截图20191121171039.png

这种可以使用新增的“地址处理”功能

内容替换/排重

   可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。



QQ截图20191121171059.png

QQ截图20191121171117.png



纯正则替换

  可以使用正则表达式进行匹配,和内容替换功能类似

字符编码处理

  网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码

         https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

QQ截图20191121171137.png

2、★新增“请求失败数”的预警条件设置



3、★下载图片命名,新增[记录自增Id]格式

记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增。

自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。

举例说明:自增记录ID:缩略图和内容两个标签都有图片下载,都设置了记录自增ID。

QQ截图20191121171159.png

QQ截图20191121171222.png

比如内容页网址https://zhishi.fang.com/jiaju/qg_680673.html

QQ截图20191121171240.png

更换一个内容页网址,记录自增ID还是从1开始自增。

https://zhishi.fang.com/jiaju/qg_691372.html

QQ截图20191121171259.png

自增ID:内容标签中设置了自增ID。

QQ截图20191121171318.png

之后就会一直自增。

QQ截图20191121171337.png

想要自增ID再次从1开始,需要重启采集器,那么就会从1开始了,否则只要设置了自增ID的,都会一直自增下去


4、★修复图片下载误判断问题


5、★修复计划任务中“每天调度”,起始运行时间配置未生效的问题


6、★ 修复PHP插件,对于循环记录的处理报错的问题


7、★修复拼音首字母对于一些错误字符的判断问题


8、★任务批量编辑,修复“发布”中“多网站乱序发布”未能复制的问题


9、★修改“循环添加新记录”配置后,修复数据格式选择错误的问题★


10、★修复循环记录中列表页标签被多次处理的问题★


11、★修复对于一些302跳转地址,无法正确跳转的问题★


12、★修复一些网址无法正确请求的问题★



感谢用户的支持与使用,今后也请多多支持小采~






扫码关注微信
最受欢迎的网页采集软件! X

您好,如需了解软件或有数据采集问题请直接联系我们~