Date: 2008-01-18 Total Hits: 11002 网站首页 » 最新消息 » |
|
火车采集器发布3.2版 SP4更新
正式版下载请进这里:http://www.locoy.com/locoy/2008/0118/down-53.html
商业用户下载请登录论坛接受短信或在高级群1.2内讨论
论坛讨论:http://bbs.locoy.com/spider-22755-1-1.html
3.2版SP4更新主要内容[2008-01-18]:
1、在任务中加入了[任务参数1]及[任务参数2]标签,可在任务右键菜单中修改,可直接用在WEB发布和数据库发布模块中 2、修改在线发布时的固定编码格式为任意编码可选的设置 3、增加了采网址、采内容、发内容分步操作的进度条显示 4、增加了一种新的标签格式:自增随机数字 可以生成以某数字开头的每次递增一随机数的数字,比如生成递增的时间戳 5、更新了下载文件类,进一步解决了对来源页检测和登录验证检测的文件下载的支持,增加了当前下载文件的查看功能 6、扩充了全局大小写的范围,采集分页需要大小写支持实例 http://www.lwcool.com/lw/newsfile/2007/2/10/2007210_lwcool_10350.html 7、使用全新的SOCKET类 解决了服务器提交了协议冲突. Section=ResponseHeader Detail=CR 后面必须是 LF的问题,测试地址:http://biotech.org.cn/news/news/show.php?id=56773 8、修改数据库发布设置时没有将测试的标签加载到测试窗口里 9、加入了自动检测升级版本的功能并能得到自动更新软件列表, 自动下载最新文件的功能 10、加入了自动报告BUG及建议的功能 11、在标签规则的排除和替换中加入可上下移动记录的功能 12、修正了在发布时来源页地址中未解析标签内容的问题 13、在所属采集页中加入了除默认页外的(采集页地址)这个页面,实现了可以对地址中变量的提取 14、修改了导入网址时大文件界面反应迟钝的问题 15、修改了自动插入(*)等字符时自动替换掉已选中的字符串的功能 16、替换了自动摘要中多余的空格和换行 17、导入导出任务去掉了多次确认框 18、增加了当有任务正在运行时突然关闭程序的跳出确认框 19、加入了对整个站点采网址,采内容,发内容状态的编辑 20、改变了配置文件的编码,增进了对繁体版系统的支持 21、增加了采网址时重复次数达到多少后是否继续判断还是跳过网址采集的设置 22、取消了文件是否在html项的设置,改为自动判断下载单条还是多条 23、修正了下载图片的同时可以下载文件的功能 24、全局关键词替换加入了对标题标签的替换-sp3仅支持内容标签 25、修正了保存为csv文件多内容换行时格式出错和缩略图下一行保存的问题 26、修正了Unix等系统的服务器区分URL大小写造成无法采集地址小写后页面的问题 参考:http://www.sfda.gov.cn/WS01/CL0051/index.html 27、全面启用log4net,日志异常记录更为全面 28、加入了是否补全缩略图网址的设置,可以根据自定义规则利用缩略图标签来采集列表页的内容 29、内容替换里加入支持参数替换的功能,实现对内容格式的随意组合 30、加入了是否在任务运行停止后自动注销任务显示界面的设置,利于回收资源 31、获取拼音加入了只获取首字母的设置 32、可以对中文URL地址编码进行设置,支持更广的非ASCII码URL格式支持,如你好,“地址”.html
|
|
|