网页抓取工具之数据预处理

提取的数据还不能直接拿来用？文件还没有被下载？格式等都还不符合要求？别着急，网页抓取工具火车采集器自有应对方案——数据处理。

图片1.png

网页抓取工具的数据处理功能包括三个部分，分别是内容处理、文件下载、内容过滤。下面依次给大家介绍：

1、内容处理：对从内容页面提取的数据进行替换、标签过滤、分词等进一步处理，我们可以同时添加多个操作，但这里需要注意的是，有多个操作时是按照从上到下的顺序来执行，也就是说，上个步骤的结果会作为下个步骤的参数。

下面来逐个介绍一下：

①提取内容为空：如果通过前面的规则无法准确提取或提取到的内容为空，则选择此项，此项应用后会使用正则匹配从原始页面中再次提取一次。

②内容替换/排除：将采集到的内容进行字符串替换，如需排除，则替换为空字符串即可，功能很灵活。如下图，可直接对内容进行替换，也可对字符串进行参数替换等（区别于工具栏中的同义词替换）。

③html标签过滤：过滤指定html标签，比如<a ，<font。这样采集出来的内容就不会带有源码中一些样式标签，更符合我们的使用标准。

④字符截取：通过开始和结束字符串对内容进行截取。适用于对已提取内容的截取调整。

⑤纯正则替换：如果一些内容（比如单一出现的文字）无法通过通用的内容替换来操作，那么则需要通过强大的正则表达式进行复杂的替换。

如“火爆的美式餐厅都在这里”，我们将其替换为“美式餐厅”，正则表达式如下：

图片2.png

⑥数据转换：包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化，共计四项处理。

⑦智能提取：包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码。

⑧高级功能：包括自动摘要、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换，统计标签字符串长度等一系列功能。

⑨补全单网址：将当前内容作为一个网址进行补全。

2、文件下载：可以自动探测并下载文件，可设置下载路径和文件名样式。

注意：文件下载中所指下载图片是源代码里有标准样式<img src="图片地址"/>标签的图片地址。

比如是一个直接的图片地址http://www.locoy.com/logo.gif ,或者不规则的图片源码，采集器将会视为文件下载。

①将相对地址补全为绝对地址：勾选后会把标签采集到的相对地址补全为绝对地址。

②下载图片：勾选后源代码里的含标准样式<img src="图片地址"/>的代码图片将被下载。

③探测文件真实地址但不下载：有时候采集到的是附件下载地址，而非真实的下载地址，点击后会有跳转。这种情况下勾选此项会将真实地址采集出来，但是只是得到下载地址并不下载。

④探测文件并下载：勾选后可以把采集到的任何格式的文件附件下载下来。

3、内容过滤：对于一些不符合条件的记录，可以通过设置内容过滤来删除或标记为未采。内容过滤有以下几个处理方法：

①内容不得包含和内容必须包含：可以设置多个词，支持选择所有条件都必须满足或满足其中一个条件即可。

②采集结果不得为空：该功能可以让某个字段不出现空内容。

③采集结果不得重复：该功能可以让某个字段不出现重复内容。设置此项前请确保没有采集过数据，或者需先清空采集数据。

④当内容长度小于(大于，等于，不等于)N时过滤：一个符号或一个字母或一个数字或一个汉字都计作一个。

注意：对于满足上述四条中的任何一条或者多条的情况下，可以在采集器的其他设置功能里设置直接删除此条记录，或把此条记录标记为未采集下次运行任务时会再次采集。

网页抓取工具火车采集器中配备一系列数据处理的好处是，当我们需要进行的只是一个很小的操作时，不需要再去写插件，去生成和编译，而是通过一步点击就可以将数据处理成我们需要的样子了。