找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 8239|回复: 11

关于对无效采集重新采集的解决办法

 关闭 [复制链接]
发表于 2007-11-29 10:36:53 | 显示全部楼层 |阅读模式
菜鸟文章,高手莫看.


由于经验不足,所以走了很多弯路.

采集某网站的时候,由于某些网络原因,10000个内容页面,有1600个是无效采集.(无效采集就是导入数据库的所有内容为空)

自己的做法是,将这些无效采集导出到记事本中,然后再重新采集一次.但是这个方法效率及其低下,容易出错.

经老大指点,发现了一个更为有效的方法,与大家分享.  

我是以数据库中标题列无效认为是无效采集.

1.打开采集数据库 SpiderResult.mdb中的表Content
2. 选择 记录--筛选--按窗体筛选



3.出来的新页面中,在标题的一栏中输入 ""   也就是两个英文双引号.点击 筛选 ---应用筛选/排序 .或者直接点击倒三角漏洞的图标,就可以得到所有的无效记录,


4.选中 已采 列,点击 编辑--替换  ,出来的弹出筐中将 -1 替换为0  (关键步骤)




5 关闭表, 提示是否保存对表"content"设计的更改,选择否(是也可以,无所谓的)

6.打开火车头,去掉采网址,加上采内容,如果要上传的话,就加上发内容.(关键步骤,去掉采网址,加上采内容)



7.点击开始,就可以补充那些没有采集的内容了.

此方法,高效,简单,而且采集的速度快.占用内存小.

[ 本帖最后由 沦陷今生 于 2008-2-8 10:04 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

发表于 2007-11-29 10:45:59 | 显示全部楼层
应该加车厢,不过你也太猛了一次采那么多,少采集点不就可以了?
发表于 2007-11-29 10:47:27 | 显示全部楼层
??不错,偶试试去~~~
发表于 2007-11-30 05:33:29 | 显示全部楼层
不好,没找到那个为空的内容啊~
 楼主| 发表于 2007-11-30 12:41:16 | 显示全部楼层
原帖由 monface 于 2007-11-29 10:45 发表
应该加车厢,不过你也太猛了一次采那么多,少采集点不就可以了?


网络原因,和采集多少没有关系的。


原帖由 lxfh985ii 于 2007-11-30 05:33 发表
不好,没找到那个为空的内容啊~


做了图了,你在看看。我是以 记录标示符  列为空作为判断标准,你可以以 title 为空判断。以哪一列为空判断,完全取决你的个人需要。但最好具有唯一性,以免重复采集。
发表于 2007-12-19 11:11:25 | 显示全部楼层
说白了,就是一个筛选!

用Len()函数吧,呵呵!
 楼主| 发表于 2007-12-19 16:47:06 | 显示全部楼层
mysql一个道理的。
发表于 2008-2-12 14:35:11 | 显示全部楼层
太好了。经典,学习了。谢谢楼主分享!
发表于 2008-2-28 14:05:01 | 显示全部楼层
学习了
发表于 2008-3-1 12:52:19 | 显示全部楼层
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表