如何清空采集器里的数据以及查看数据,网址库的说明~~~
1楼清空数据 2楼查看数据,3楼网址库讲解 请你看完
1,清空网址和数据
如果你想把规则里的数据清空从新采集请按照下面的操作:
右击采集规则====》清空任务所有采集数据,清空该任务网址库(备注:这个2个都要选择下)
这样就会把任务采集到数据和网址全部清空掉,再次运行任务就从新采集了
2,只清空数据
按照上面的操作,会把采集的地址也会清空掉,地址就要从新采集了
假如你只是想从新采集内容的话可以只要把这条采集信息勾选为未采集状态办法看下面
1,手动勾选
如果数据不多或者只是针对部分数据需要重新采集可以选择此方法
首先打开本地编辑任务采集数据如下图
然后采集器的右侧可以看到采集到的数据
把采集的状态设置为未采集如下图
这样运行任务 不需要勾选采集网址 直接勾选采集内容就可以了 节省时间
2,sql语句
如果数据很多 ,我们就使用sql语句来批量修改采集的状态为“未采集”
说明下你选择保存的数据库是什么 这样对应的sql语句是有所不一样的
知道数据库的童鞋都知道每个数据库的Sql语句格式都是不一样的
我本地是使用sqlite数据库,做为演示
点击Sql按钮如下图:
写sql语句如下图,采集器把对应数据库的sql语句列出了,我们这里选择“更新”数据库
sql语句这里就不说明了会的自然会,不会的在这里也说不明白 不明白的大家问度娘去。。
这里sql语句写成“UPDATE Content SET [已采]=1” 下面的执行就可以了
执行成功了,点击从新加载数据 就看到变化了 再次采集的时候会把之前采集的覆盖掉。
假如你本地保存数据库选择的是mysql
使用“更新”sql语句是:“UPDATE `Data_Content_任务ID` SET `已发`=1 WHERE `标题` is null”
这里说下这个任务id是什么
看下图
把“任务ID” 对应修改成数字就好
】
大家疑惑会什么不同的数据库会这么大的区别,不需要去疑惑,本身不同的数据库就是不一样的 现在我们来说下如果查看采集到的数据
1,本地编辑采集任务数据
采集器有自带的编辑器,我们可以通过这个个编辑器查看数据
按照上图,右侧就可以打开数据了
我们可以查看数据如果你是商业版用户也可以修改数据后保存
如上图选择要修改的值 在下面编辑器那里修改 然后点击下面的保存按钮就可以了
2,从数据库查看数据
大家都知道采集器这个目录 \Data\LocoySpider 就是存放规则采集到的数据的地方,打开后看到的是
一个一个按照数字命名的文件夹 这个数字就是对应的任务id 数字 按照任务ID命名的文件下面的数据库文件就是存放的
对应规则的采集数据
这里如果知道规则的任务ID呢?看下图
如上图所示有2种方式打开 对应的文件
1,规则右击==》打开DATA下任务文件夹这样就可以直接打开对应的数据库文件夹
2,选中规则,有下角 会显示任务对应的ID 然后去DATA文件夹下找到对应的文件
数据库文件名是SpiderResult。如果后缀是db3说明你本地保存的数据库是sqlite 如果打开这个文件请百度下
如果后缀名是mdb 说明你本地保存的数据库是选择的access数据库 这个可以直接用excel 打开
如果你想用更专业的工具打开它 也请你百度下如果打开
如果你本地保存数据库选择的是mysqlsqlserver mongodb那么你一定不是菜鸟 对数据库有一定的了解
那么如果查看我就不要说了 网址库
大家知道规则的网址库是那个吗
就是\Data\LocoySpider\PageUrl 同样是根据任务ID命名的
采集器把任务采集到的地址都保存到这里面的文件下用来
检测网址重复呀 都是根据这里面的数据库文件
里面内容是加密的 教程很详细,认真的看过之后就会了。 好 我支持咯哦!
www.dadishuzi.cc
http://www.dadishuzi.cc 淮北市民网表示很赞,已经很认真滴看过了 我支持http://www.xigushan.com/a/shenghuo/star/2014/0705/79981.html
http://www.xigushan.com/a/taiji/method/2014/0516/56966.html 最喜欢这种图文结合的教程了!! 这个我会。。。。挺简单的 新手报到,多多关照啊。目前处于各种技能学习中。
页:
[1]
2