
- ·版本更新说明
-
火车采集器V1.2.0版[2006-02-07更新]
1、重构了用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器。
独立出来由用户自定义提交自定义的登陆,刷新和发表的参数。各个cms系统都作成一个cms模块文件,放入程序文件夹下的/module/即可。
系统现自带了几个主流cms系统:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。
2、全新版的规则定义方式
①自定义标签:使用标签形式定义采集名,系统以后不再局限于老版本的标题,作者,出处,时间和内容5个标签,想定义多少个就多少。
②自定义标签下限定内容的个数,每个标签下用以限定采集内容使用的开始字符串,结束字符串,排除,替换,自定义个数,不再局限于老版本中的5个排除,2个替换。、
③可以选定是采集内容还是采集连接。采集连接时程序自动分析里面的地址,HTTP形式的地址可以分析并探测得到真实地址。
3、完全去掉了大家比较头疼的正则表达式。改用系统内置通配符(*),无论是开始字符串,结束字符串,排除,替换遇到不确定的内容时,一个(*)全部可以代替。
4、强大的内容分页识别
您要做的只是用开始字符串和结束字符串定义一下 页面内分页的区域。支持可变内容通配符(*) ,然后选定一下该页面分页的形式:全部列出分页,上下页形式(较少),程序就会分析页面里的内容将所有分页合并起来。
新版分页功能支持自定义分页连接代码,如果结合到你强大的cms,比如dedecms分页代码为#P#,选择自定义合并分页后可以完全按原文章的样子,你采集生成的页面同样有多少页!
5、加入了内容标签循环采集功能
通常一个页面采集时只采集第一次匹配成功的内容,比如对论坛来说定义好规则后只能采集到第一楼的内容,您可以定义循环采集次数n,来限定采集多少次匹配的内容,0为采集全部匹配内容,默认为1次。
6、加入对来源网站和发表文章的目标系统的各种编码的支持
7、网址倒排序发表功能
8、完成系统自动探测地址,并实现对大文件的分块断点多线程下载 考虑到版权问题软件下载只到本地,不改连接,需要的PM我。
9、加入了设置代理服务器采集的功能。
10、由于用户可以根据自定义的标签对应修改提交的POST参数,相当于导入数据库指定表的功能,且不是对本地操作,因此该版本去掉了不甚完善的数据库导入功能。
火车采集器V1.1.0版[2006-01-03更新]
1、加入了使用Post参数或已有的Cookie登录后采集需要登录的网页的功能。
2、加入了数据自定义配置数据连接导入Mysql的功能。
3、针对有人不会使用正则的情况,本期再加入了两个替换规则。
4、去掉了标题采集中忘记去掉的调试跳出窗口。
5、修正了一些时候程序自动分析相对网址出错的情况。
6、系统正在尝试改结构,自定义规则正在完善中,以后大家可以定义任意标签,排除和替换规则和选择采集内容还是连接,采集多页会在下期新版规则定义中推出。
火车采集器V1.0.4版[2005-12-13更新]
1、加入了对PHPCMS2.3文章系统的支持。
2、加入了对LeadBBS3.14论坛的支持。
3、加入了对心雨动网CMS1.14文章系统的支持
4、加入了对EpCms文章系统的友情支持。
5、加入了用户自定义网址连接形式选项,可采集到因js调用系统不能自动识别的网址。
6、单线程改为多线程采集标题,防止程序因网速问题假死。
7、网址集合生成时可选择正/倒序排列、实现了树的可拖曳性。
8、入库功能继续制作中,准备在下个版本中推出雏形。
火车采集器V1.0.3版[2005-12-03更新]
1、加入了对PHPWind4.01的支持。
2、加了对采集的文章获取标题的功能
3、加入了对文章内容进行替换的功能
4、程序自动保存用户设置
5、程序使用时的一些小提示
6、采用手动提交cookie的方式修复dede等采用session方式登陆的系统有时不能登陆的问题
7、某些系统对url大小写敏感时图片,flash下载出错的问题
8、修正了水印图片功能
9、去掉了下载图片flash后带的chinacnw_com的文件名
10、数据入库功能连接设置预览
火车采集器V1.0.2版[2005-11-25更新]
1、加入了对图片进行批量文字,图片水印功能。
2、加入了对Dvbbs7.1.0的支持。。
3、修正了一些小错误。。
火车采集器V1.0.1版[2005-11-21发布]
功能简介:
1、多系统支持,现已加入对PHPWIND,DISCUZ,DEDECMS2.X和PHPArticle2.01的采集支持。
2、模拟用户登录,和操作浏览器一样,但程序只处理核心数据,运行速度更快。
3、可以设定是否将远程图片及Flash下载到本地,程序会将其自动获取到其绝对地址)。
4、多线程,时间间隔设定 可以根据您的机器性能和网速或系统允许的文章发表时间设定
5、较强大的网址采集功能,配合页面内定义区域采集、手动生成网址及采集二级页面功能基本上可采集到您所要的任何网址集合。
6、内容规则定义有多条内容过滤规则,彻底过滤掉内容里的广告等无用内容。
7、网址集合、内容规则导入、导出功能,方便网友共享采集到的内容。
8、论坛支持Html和UBB发帖两种模式。