嘟嘟嘟嘟嘟 发表于 2019-11-21 17:03:55

速看|火车采集器V9.11版本更新


火车采集器点击上方蓝色字体,关注我们亲爱的用户:为了给用户更好的采集体验,2019年11月21日我们进行了火车采集器的版本更新,目前火车采集器V9.11版本已正式上线。1、★ 列表页新增“地址处理”功能★示例网址,新浪滚动新闻:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1点击下一页,抓包可获取真实地址:      https://feed.mix.sina.com.cn/api ... 09&k=&num=50&page=1
分析json数据可以得知 url 后面的是内容页网址,设置如下:               
可以看到采集的网址里有很多 \ ,导致网址无法访问,而且网址不规则,不易处理。      
这种可以使用新增的“地址处理”功能内容替换/排重   可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。



纯正则替换可以使用正则表达式进行匹配,和内容替换功能类似字符编码处理网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码         https://feed.mix.sina.com.cn/api ... p;num=50&page=12、★新增“请求失败数”的预警条件设置★


3、★下载图片命名,新增[记录自增Id]格式★
记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增。自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。举例说明:自增记录ID:缩略图和内容两个标签都有图片下载,都设置了记录自增ID。
比如内容页网址https://zhishi.fang.com/jiaju/qg_680673.html
更换一个内容页网址,记录自增ID还是从1开始自增。https://zhishi.fang.com/jiaju/qg_691372.html
自增ID:内容标签中设置了自增ID。
之后就会一直自增。
想要自增ID再次从1开始,需要重启采集器,那么就会从1开始了,否则只要设置了自增ID的,都会一直自增下去。
4、★修复图片下载误判断问题★
5、★修复计划任务中“每天调度”,起始运行时间配置未生效的问题★
6、★ 修复PHP插件,对于循环记录的处理报错的问题★
7、★修复拼音首字母对于一些错误字符的判断问题★
8、★任务批量编辑,修复“发布”中“多网站乱序发布”未能复制的问题★9、★修改“循环添加新记录”配置后,修复数据格式选择错误的问题★
10、★修复循环记录中列表页标签被多次处理的问题★
11、★修复对于一些302跳转地址,无法正确跳转的问题★
12、★修复一些网址无法正确请求的问题★
感谢用户的支持与使用,今后也请多多支持小采~


页: [1]
查看完整版本: 速看|火车采集器V9.11版本更新