火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5376|回复: 1

V10来啦|火车采集器迎来重大版本更新

[复制链接]
发表于 2021-7-5 14:28:14 | 显示全部楼层 |阅读模式


亲爱的用户:
为了给用户更好的采集体验,2021年07月05日我们进行了火车采集器的版本更新,目前火车采集器V10.0版本已正式上线。



更新内容




1、★数据获取中支持调用其他标签的值作为截取条件
数据提取方式支持调用其他标签值可以让采集过程更加灵活,在提取中点击标签符号即可调用其他标签的值。下面介绍下具体使用方法:
我们以网址:https://detail.tmall.com/item.htm?id=644685533017,为例,目的为提取sku对应的颜色名称,以一个颜色为示例:
目标网站获取数据部分源码:
(1)先获取该颜色的sku值
注意:调用标签在前后截取以及正则提取中皆可使用,使用方法相同。

2、★数据获取支持CSS selector
火车采集器数据获取新增支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。
如要系统性学习css提取的知识,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp
在火车采集器集成了css提取功能,直接将css路径填写在界面中即可使用。Selector中填写css路径,节点属性选择需要采集的属性。
比如:
注意:只有网页源码中有的元素,才能使用css获取,若是源码中没有而是浏览器渲染过后才展示的css,无法通过火车采集器来获取

3、★增加关联区域功能

关联区域功能,可以先截取网页中指定区域内容,然后将该区域作为数据来源
进行采集处理。
关联区域功能有利于网页结构重复或者复杂的网页形式的分析以及采集。
下面介绍下关联区域功能的用法:
以网址:http://www.locoy.com/download,为例,比如只想要采集2020年间的下载链接。如果直接循环采集,那么就会采集到其他年份的链接,干扰结果,所以我们可以使用关联区域指定采集的区域。
下面介绍下具体的设置方法:
(1)添加关联区域
(2)数据来源中选择关联区域,然后按照一般的方式进行采集即可

4、★批量网址增加区间变化的网址增加方式
区间变化的变化原理为:地址中的两个参数以固定的间隔进行增长,并且相邻两组值的结束值与起始值间隔为1,以这种形式变化增长的地址格式可以使用区间变化来处理。
比如以https://www.powerchina.cn/col/co ... 46098&pageNum=1,网址为例,我们使用fiddler抓包网址变化如下:
。。。
如下图,我们可以清晰的看到列表网址中,每一页的起始值跟结束值都相差15,且相邻的页数,上一页的结束值与下一页的起始值相差为1,符合区间变化的规律。
所以就可以按照下图设置,变化的字段选用地址参数,起始值用[地址参数],结束值用[地址参数1],区间步长使用起始值与结束值的间隔数。

注意:区间变化不可与批量网址中的其他方式混用,且必须有两个地址参数

5、批量设置步骤增加新增功能的相关设置


6、★运行统计日志设置添加默认关闭功能


7、★oss相关问题修复


8、★网址空格问题导致列表页标签错误问题修复


9、下载相关问题修复

10修复“任务数据批量处理”中删除为空记录无效的问题


11、文件下载插件增加文件下载后处理接口


感谢用户的支持与使用,今后也请多多支持小采~





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2021-7-11 09:48:53 | 显示全部楼层
对应规则发出来,这样看多麻烦。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 14:21

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表