火车头内容采集器教程

下载类采集事例

  来源网站:http://www.jdxz.net/ >> 网络软件主页制作 → 资源列表
  目标网站:保存到本地数据库
  其它备注:此网站有两个下载地址,此教程将下载地址一接探测真实地址,不下载附件,下载地址二探测文件真实地址并下载到本地。
  步骤:

  1.新建站点,填写站点基本信息:
  

  站点名称一栏输入:金电下载
  站点网址一栏输入:http://www.jdxz.net/
  站点描述一栏输入:软件下载

  2.整站内容规则:
  进入下载首页网络软件主页制作 → 网站弹出窗口代码生成器Dyro Pop Maker V1.6版.rar,查看网页源码内容,得出以下源码:

  ⑴.首先我确定一下采集的内容主要包括文章标题和内容两项,从以上源码可以看出,标题的源码段为:

  你可以多查看几篇新闻,将源码对比一下,从这里看出从“<title>”到“</title>”之间就是文章标是的所有内容,所以我们双击标题标签栏打开编辑窗口,在开始字符串处输入“<title>”;在结束字符串处输入“</title>”,然后点击确定完成标题标签设置:

  

  ⑵. 下一步查看软件简介做为内容标签,分析他的源码,得到内容标签开始于:
  结束于:“”。

  ⑶.添加软件类别标签,点击添加标签,在标签名栏输入:“软件类别”,开始字符串:“><B>软件类别:</B>”,结束字符串:“<BR>”。
  ⑷.添加软件大小标签,点击添加标签,在标签名栏输入:“软件大小”,开始字符串:“<BR><B>软件大小:</B>”,结束字符串:“<BR>”。
  ⑸.添加软件语言标签,点击添加标签,在标签名栏输入:“软件语言”,开始字符串:“<BR><B>软件语言:</B>”,结束字符串:“<BR>”。
  ⑹.添加运行环境标签,点击添加标签,在标签名栏输入:“运行环境”,开始字符串:“<BR><B>运行环境:</B>”,结束字符串:“<BR>”。
  ⑺.添加下载地址一标签,点击添加标签,在标签名栏输入:“下载地址一”,开始字符串设置为:
  结束字符串设置为:“">”,因为他的下载地址链接使用的是相对路径,我们将其变为绝对路径,添加内容替换内容:将“../Download.asp”替换成为:“http://www.jdxz.net/Download.asp”,最后我们要将下载地址一探测真实文件地址而不下载文件,所以我们在文件下载选项处选择:“只探测直接地址不下载文件”。
  
  ⑻.添加下载地址二标签,点击添加标签,在标签名栏输入:“下载地址二”,开始字符串设置为:
  结束字符串设置为:“">”,因为他的下载地址链接使用的是相对路径,我们将其变为绝对路径,添加内容替换内容:将“../Download.asp”替换成为:“http://www.jdxz.net/Download.asp”,下载步我们设置下载地址二将的链接附件下载,所以我们在文件下载选项处选择:“探测真实地址并做为文件下载”,可以选择自动更改下载后的文件名或使用原文件名。
  
  ⑼.完成以上设置可以设置设置是否正确,然后点击保存站点完成所有设置。注意测试时不会探测真实地址,也不会对附件进行下载,点击下载以上站点规则
  如果还需要其它标签,请根据相关的内容自行添加。

  3.新建任务,在任务列表栏选择刚才所见的站点腾讯新闻,然后点击鼠标右键>>选择从该站点新建任务:
  
  在新弹出来的窗口,原来有讲过,有三个页面,在第一个页面设置网址选项,因为我们是先采集网址在从网址列表得到内容,所以我们设置采集深度为1。点击向导添加>>批量多页,然后输入网址,间隔数设为“1”,并按倒序发表。
  
  然后设置页面内选定区域采集网址内容,查看网页列表页面源码,贴子页面链接范围从
  开始,到
   结束,我们查看他的源码得到他的网站编码为GBK编码,所以我们设置来源站的编码为“Default”,然后点击开始测试网址验证以上设置是否正确。
  
  4.以下设置完成,我们点击内容规则,因为在新建站点时,我们设置了网站的通用采集规则,所以在这里,此部可以跳过,如果有修改的地方请按照相关内容修改,在此处修改内容不影响整站内容规则。

  5.数据发布方式,我们选择方式一:保存到软件数据库,点击启用。
  
  
  6.完成以上设置,会返回到新建任务的窗口,在右上角输入任务名称:“网络软件-主页制作”,然后点击保存按钮完成所有设置,保存后完毕关闭此窗口。
  7.任务高级设置,在任务列表栏选择刚才建议的任务“网络软件-主页制作”,点击右键选择任务高级设置:
  
  打开设置窗口:
  
  设置文件下载本地文件夹,点击浏览保存的文件夹,然后确定;其它文件相对文件夹,设置下载的文件相对以上设置的保存本地文件夹的相对位置,我们设置的是“down”,那么我们保存的文件夹就为:“D:\LocoySpiderVIP_12-26\Data\8-网络软件-主页制作\down”,其它保存文件夹设置与此设置一样;文件链接地址前辍,一般填写域名或者根目录,同样支持相对路径,如我们设置的就是:“./down/”,注意一定要使用"/"结尾。如果需要自动更新请选择相关设置,在窗口说明有详细讲解其使用方法。完成以上设置点击保存。

   8.完成以上设置后,在任务列表窗口选择刚才新建的任务,然后点击开始采集:
  
  

  特别注意:附件下载与真实地址探测请合理设置系统全局设置,如单个任务线程数及间隔时间设置: