火车头内容采集器教程

文章类采集事例

  来源网站:http://news.qq.com/ >> 新闻频道 > 新闻语录
  目标网站:保存为本地文件 *.HTML
  其它备注:下载文章内容图片与Flash到本地
  步骤:

  1.新建站点,填写站点基本信息:
  

  站点名称一栏输入:腾讯新闻
  站点网址一栏输入:http://news.qq.com/
  站点描述一栏输入:腾讯新闻中心

  2.整站内容规则:
  进入腾讯新闻-新闻频道 > 新闻语录 > 里面的一篇新闻,查看网页源码内容,得出以下源码:

  首先我确定一下采集的内容主要包括文章标题和内容两项,从以上源码可以看出,标题的源码段为:

  你可以多查看几篇新闻,将源码对比一下,从这里看出从“<div id="ArticleTit">”到“</div>”之间就是文章标是的所有内容,所以我们双击标题标签栏打开编辑窗口,在开始字符串处输入“<div id="ArticleTit">”;在结束字符串处输入“</div>”,然后点击确定完成标题标签设置:

  

   下一步从源码当中查找发贴的内容段代码,需要查找出整个一楼的源码,多查看几篇贴子将源码比较,我们会发现所有的内容开始于:“<div id="ArticleCnt">”这里,结束于下一个:“</div>”。所以我们可以双击内容标签栏,分别输入开始与结束字符串,然后点击确定完成设置,以下可以在页面测试栏输入来源的网址,测试以上设置是否正确,得出以下源码:


  因为以上源码里面有些广告内容,我们需要将其删除,建议在做完以下每一步后,点击确定然后测试一次,以便及时发现错误的设置:
  开始与结束字符串及内容排除或替换支持变量,只需要使用“(*)”代替变化的内容即可。
   ⑴. 屏蔽左边广告内容 ,分析测试结果里面的源码,得到广告内容,为了防止其它页面的广告有反变化,分析他的规则,使用“(*)”替换中间内容,所以我们修改内容标签,点击内容排除,添加以下内容:

  ⑵.屏蔽所有链接,直接在HTML标签排除选项里面选择链接:
  
  ⑶.完成以上,测试网页规则,见还有其它需要屏蔽的内容或屏蔽内容后产生的无效内容,如:
  ⑷.设置图片附件下载,打开内容标签编辑窗口,在文件下载选项处选择下载图片及下载Flash,然后点击确定。
  
  ⑸.设置网页分页内容,些网页分页时已经将所有网页链接在第一页展示,所以我们选择全部列出模式,分页的开始与结束字符串为“<div id="ArticlePage(*)">”到“</div>”,因为是保存为本地文件,所以我们选择使用回车连接上下页,或者使用自定义分页代码,如“<br>”等。标签循环匹配一次。最后测试规则是否正确,然后保存完毕.我刚才所做的规则我已经导出>>点击下载此站点规则
  

  3.新建任务,在任务列表栏选择刚才所见的站点腾讯新闻,然后点击鼠标右键>>选择从该站点新建任务:
  
  在新弹出来的窗口,原来有讲过,有三个页面,在第一个页面设置网址选项,因为我们是先采集网址在从网址列表得到内容,所以我们设置采集深度为1。点击向导添加>>添加单条网址,然后输入网址:
  
  然后设置页面内选定区域采集网址内容,查看网页列表页面源码,贴子页面链接范围从
  开始,到

   结束,我们查看他的源码得到他的网站编码为GBK编码,所以我们设置来源站的编码为“Default”,然后点击开始测试网址验证以上设置是否正确。
  
  4.以下设置完成,我们点击内容规则,因为在新建站点时,我们设置了网站的通用采集规则,所以在这里,此部可以跳过,如果有修改的地方请按照相关内容修改,在此处修改内容不影响整站内容规则。

  5.数据发布方式,我们选择方式二:保存为本地文件,点击启用,保存文件格式为.html,然后设置HTML文件保存的位置及选择生成HTML文件使用的模版。
  
  HTML模版与同使用火车头程序标签调用,如我们做的默认模版:

  6.完成以上设置,会返回到新建任务的窗口,在右上角输入任务名称,然后点击保存按钮完成所有设置,保存后完毕关闭此窗口。
  

  7.任务高级设置,在任务列表栏选择刚才建议的任务“新闻语录”,点击右键选择任务高级设置:
  
  打开设置窗口:
  
  设置文件下载本地文件夹,点击浏览保存的文件夹,然后确定;图片保存相对目录,设置下载的图片相对以上设置的保存本地文件夹的相对位置,我们设置的是“images”,那么我们保存的文件夹就为:“C:/Documents and Settings/Administrator/桌面/html/images”,其它保存文件夹设置与图片设置一样;文件链接地址前辍,一般填写域名或者根目录,同样支持相对路径,如我们设置的就是:“./images/”,注意一定要使用"/"结尾。如果需要自动更新请选择相关设置,在窗口说明有详细讲解其使用方法。完成以上设置点击保存。

   8.完成以上设置后,在任务列表窗口选择刚才新建的任务,然后点击开始采集:
  
  

  文件保存结果: