网页抓取工具如何进行http模拟请求

2017-02-05 11:28:06 浏览:9839

在使用网页抓取工具采集网页时,进行http模拟请求可以通过浏览器自动获取登录cookie、返回头信息,查看源码等。具体如何操作呢?这里分享给大家网页抓取工具火车采集器V9中的http模拟请求。许多请求工具都是仿照火车采集器中的请求工具所写,因此大家可以此为例学习一下。

http模拟请求可以设置如何发起一个http请求,包括设置请求信息,返回头信息等。并具有自动提交的功能。工具主要包含两大部分:一个MDI父窗体和请求配置窗体。

图片3.png

1.2请求信息:常规设置和更高级设置两部分。1.1请求地址:正确填写请求的链接。

(1)常规设置:

①来源页:正确填写请求页来源页地址。

②发送方式:get和post,当选择post时,请在发送数据文本框正确填写发布数据。

③客户端:选择或粘贴浏览器类型至此处。

④cookie值:读取本地登录信息和自定义两种选择。

高级设置:包含如图所示系列设置,当不需要以上高级设置时,点击关闭按钮即可。

图片4.png

②网页编码:自动识别和自定义两种选择,若选中自定义,自定义后面会出现编码选择框,在选择框选择请求的编码。

①网页压缩:选择压缩方式,可全选,对应请求头信息的Accept-Encoding。

③Keep-Alive:决定当前请求是否与internet资源建立持久性链接。

④自动跳转:决定当前请求是否应跟随重定向响应。

⑤基于Windows身份验证类型的表单:正确填写用户名,密码,域即可,无身份认证时不必填写。

⑥更多发送头信息:显示发送的头信息,以列表形式显示更清晰直观的了解到请求的头信息。此处的头信息供用户选填的,若要将某一名称的头信息进行请求,勾选Header名对应的复选框即可,Header名和Header值都是可以进行编辑的。

1.3返回头信息:将详细罗列请求成功之后返回的头信息,如下图。

图片5.png

1.5预览:可在此预览请求成功之后返回的页面。1.4源码:待请求完毕后,工具会自动跳转到源码选项,在此可查看请求成功之后所返回的页面源码信息。

1.6自动操作选项:可设置自动刷新/提交的时间间隔和运行次数,启用此操作后,工具会自动的按一定的时间间隔和运行次数向服务器自动请求,若想取消此操作,点击后面的停止按钮即可。

配置好上述信息后,点击“开始查看”按钮即可查看请求信息,返回头信息等,为避免填写请求信息,可以点击“粘贴外部监视HTTP请求数据”按钮粘贴请求的头信息,然后点击开始查看按钮即可。这种捷径是在粘贴的头信息格式正确的前提下,否则会弹出错误提示框。

更多有关网页抓取工具或网页采集的教程都可以从火车采集器的系列教程中学习借鉴。

扫码关注微信