火车头采集器其它窗口介绍(新建/编辑任务)
-
1:打开[新建任务]或[编辑任务],弹出以下新建任务或编辑任务的窗口,此窗口共分三页,第一页是采集网址设置,如下图:

⑴:采集网址深度,指得到内容页面需要进行的采集次数。0级-表示开始采集的网址已经是要采集的内容页面网址;1级-表示集合为列表,内容网址需要进行一次采集后得到;2级-表示需要先进行一次采集得到分类列表,在通过采集得到内容页面网址。
⑵:开始采集地址,是指需要采集内容页面网址的来源页面,点击[向导添加]增加网址项,向导页面一共分三个选项页面。
第一页:添加单条网址

在第一个输入框内输入一条或多条网址,点击添加确认,确认完毕,会在下面的结果框内显示所有添加的网址。
第二页:添加单条网址

在第一个输入框内输入一条网址,将其网址的变华的部分使用“(*)”替换,然后输入“(*)”的变化范围(范围从小到大填写,第二个范围可以为空,直到遇到错误页全部采集完为止),在选择网址的间隔倍数,默认为“1”即不用间隔,是否倒序采集网址列表与是否补零的选项。点击添加确认,确认完毕,会在下面的结果框内显示所有添加的网址。
第三页:使用文本导入

通过浏览选择要导入的文件文件,然后点击添加完成。
如果你选择的是同时选用多种方式导入网址,那么多种方式将同时有效!⑶:自定义链接格式

对于某些网址列表无法通过常规的方式得到链接网址的,我们使用自定义链接格式的方法。通常使用于使用javescript:openwindow形式与不规则网址列表生成。选择启用特殊连接的时候,此选项生效;为了防止采集到其它无效网址,建议禁用系统自动识别链接。使用方法请见程序内部使用说明。
⑷:文章列表页面的地址必须包含,用于设置文章列表页面的链接限制规则。
此选项当采集深度设置为“2”时方可生效!必须包含项内如有变量请用“(*)”替换。多个不包含条件请使用“|”分隔字符窜。⑸:文章内容页面的地址必须包含,用于设置文章内容页面的链接限制规则。
必须包含项内如有变量请用“(*)”替换。多个不包含条件请使用“|”分隔字符窜。⑹:页面内选定区域采集网址,用于只采集页面选定区域范围内的网址列表。
⑺:采集需要登录的网站,某些网站需要登录方可查看其内容,请点击从这里登录网站打开火车头内置浏览器,直接输入网址登录网站,确认登录成功后,关闭该窗口,系统将会自动留下登录的cookie。
⑻编码设定,用于设定你所采集的来源站的网站编码。以上设置全部完成,可以点击开始测试网址测试设置是否正确,此处只用于测试采集过程中采集网址是否正确,如自己确定正确,可以不进行此项设置。
2:内容规则

此页面主要包括以下三个主要区域:
第一项:页面内容标签,用于设置所采集页面内容所得到的不同标签规则,此处可以通过采集得到数据或使用固定格式的数据。

⑴:标签名,用于所采集页面不同区域,不同内容的标签定义,可以自己新增标签名,当标签名输入完毕并确定后,此标签名将不可以更改,如无需此标签名,可以将此标签删除。
⑵:规则类型定义,用于自动选择所需要采集的内容快速选项,如只采集图片或文字等 (此功能完善中)。
⑶:标签的开始与结束字符串,用于自定义所采集标签内容的开始与结束区域,可以使用正则表达式,如果需要则在内容开始字符串内输入匹配采集内容的正达式并以字符“正则:”开头。
⑷:HTML标签排除,用于快速的选择需要排除的HTML标签内容。
⑸:文件下载选项,用于文件下载及相关功能设置。
⑹:内容排除,用于排除所采集标签得到的不需要的内容。
⑺:内容替换,用于排除所采集标签得到的不需要的内容于并将其替换成为其它内容。
提示:开始结束字符串及内容排除或替换均支持变量,请使用“(*)”替换变换的内容。
采集内容有时候为固定格式的变量内容时,我们需要使用固定数据库数据格式,里面有四种默认的数据格式:固定的字符窜/数字;系统时间;随机字符串,及随机数字。其中系统时间格式有多种选项,可以根据不同的需要选择。如果选择固定格式的数据,前面设置的通过采集得到的数据将不生效使用!
第二项:页面内容分页设置,用于采集有分页的内容之页面规则。
⑴:采集得到的内容将分为全部列出模式和上下页模式,当你所采集的网页内容在第一页有其它所有分页的链接时,请使用全部列出模式;当你所采集的页面只有上一页和下一页的链接时,请使用上下页模式。当设置完成后,所采集到的分页内容将合并成为一页。
⑵:内容分页区域,用于设置分页链接所存在区域的开始与结束字符串。
⑶:内容分页合并,用于设置将分页内容合并成为一页时,连接分页的代码,默认使用回车转行方式替换分页内容,如果你希望发页的内容也同源文件同样分页的方式,请根据不同的CMS系统设置不同的自定意分页代码。
⑷:标签循环匹配,用于所采集到的页面内容格式有循环的时候使用,如论坛回贴内容等。下面有三个选项,根据不同需要分别选择。
第三项:采集页面测试,用于测试以上设置是否正确。
3.数据发布方式
⑴:保存到软件数据库,保存为火车软件默认的Acccess数据库内。
⑵:保存为本地文件,支持txt;csv和html格式。
⑶:Web在线发布到网站,通过火车头网站发布模块将直接内容在线发布到网站上面。
⑷:导入到自定意数据库,通过火车头软件,将所采集的内容保存到Access,Mssql或Mysql数据库内。
⑸:保存为本地SQL文件,保存为Insert语句。
4.任务高级设置

⑴:文章倒序发表,选择是否将文章以采集的网址使用倒序方式发表。
⑵:对采集的数据进入Urlencode处理,针对某些CMS空格等丢失使用。
⑶:文件下载设置,设置文件下载时所储存的本本位置,可以分别设置图片,Flash及其它文件所存在的目录。
⑷:文件链接地址前辍,设置你将文件上传到网站后的链接地址,一般使用填写你的域名或根目录,注意必需使用“/”结尾。
⑸:启动自动更新,设置更新频率及更新时间,火车头程序将根据设置,自动采集数据。
