下载类采集事例
来源网站:http://www.jdxz.net/ >> 网络软件 → 主页制作 → 资源列表
目标网站:保存到本地数据库
其它备注:此网站有两个下载地址,此教程将下载地址一接探测真实地址,不下载附件,下载地址二探测文件真实地址并下载到本地。
步骤:

站点名称一栏输入:金电下载
站点网址一栏输入:http://www.jdxz.net/
站点描述一栏输入:软件下载
2.整站内容规则:
进入下载首页 → 网络软件 → 主页制作 → 网站弹出窗口代码生成器Dyro Pop Maker V1.6版.rar,查看网页源码内容,得出以下源码:
⑴.首先我确定一下采集的内容主要包括文章标题和内容两项,从以上源码可以看出,标题的源码段为:
你可以多查看几篇新闻,将源码对比一下,从这里看出从“<title>”到“</title>”之间就是文章标是的所有内容,所以我们双击标题标签栏打开编辑窗口,在开始字符串处输入“<title>”;在结束字符串处输入“</title>”,然后点击确定完成标题标签设置:
⑵. 下一步查看软件简介做为内容标签,分析他的源码,得到内容标签开始于:
结束于:“”。
⑶.添加软件类别标签,点击添加标签,在标签名栏输入:“软件类别”,开始字符串:“><B>软件类别:</B>”,结束字符串:“<BR>”。
⑷.添加软件大小标签,点击添加标签,在标签名栏输入:“软件大小”,开始字符串:“<BR><B>软件大小:</B>”,结束字符串:“<BR>”。
⑸.添加软件语言标签,点击添加标签,在标签名栏输入:“软件语言”,开始字符串:“<BR><B>软件语言:</B>”,结束字符串:“<BR>”。
⑹.添加运行环境标签,点击添加标签,在标签名栏输入:“运行环境”,开始字符串:“<BR><B>运行环境:</B>”,结束字符串:“<BR>”。
⑺.添加下载地址一标签,点击添加标签,在标签名栏输入:“下载地址一”,开始字符串设置为: