sushy 发表于 2007-11-29 10:36:53

关于对无效采集重新采集的解决办法

菜鸟文章,高手莫看.


由于经验不足,所以走了很多弯路.

采集某网站的时候,由于某些网络原因,10000个内容页面,有1600个是无效采集.(无效采集就是导入数据库的所有内容为空)

自己的做法是,将这些无效采集导出到记事本中,然后再重新采集一次.但是这个方法效率及其低下,容易出错.

经老大指点,发现了一个更为有效的方法,与大家分享.

我是以数据库中标题列无效认为是无效采集.

1.打开采集数据库 SpiderResult.mdb中的表Content
2. 选择 记录--筛选--按窗体筛选



3.出来的新页面中,在标题的一栏中输入 ""   也就是两个英文双引号.点击 筛选 ---应用筛选/排序 .或者直接点击倒三角漏洞的图标,就可以得到所有的无效记录,


4.选中 已采 列,点击 编辑--替换,出来的弹出筐中将 -1 替换为0(关键步骤)




5 关闭表, 提示是否保存对表"content"设计的更改,选择否(是也可以,无所谓的)

6.打开火车头,去掉采网址,加上采内容,如果要上传的话,就加上发内容.(关键步骤,去掉采网址,加上采内容)



7.点击开始,就可以补充那些没有采集的内容了.

此方法,高效,简单,而且采集的速度快.占用内存小.

[ 本帖最后由 沦陷今生 于 2008-2-8 10:04 编辑 ]

monface 发表于 2007-11-29 10:45:59

应该加车厢,不过你也太猛了一次采那么多,少采集点不就可以了?

lxfh985ii 发表于 2007-11-29 10:47:27

??不错,偶试试去~~~:ali10ls

lxfh985ii 发表于 2007-11-30 05:33:29

不好,没找到那个为空的内容啊~

sushy 发表于 2007-11-30 12:41:16

原帖由 monface 于 2007-11-29 10:45 发表 http://bbs.locoy.com/images/common/back.gif
应该加车厢,不过你也太猛了一次采那么多,少采集点不就可以了?

网络原因,和采集多少没有关系的。


原帖由 lxfh985ii 于 2007-11-30 05:33 发表 http://bbs.locoy.com/images/common/back.gif
不好,没找到那个为空的内容啊~

做了图了,你在看看。我是以 记录标示符列为空作为判断标准,你可以以 title 为空判断。以哪一列为空判断,完全取决你的个人需要。但最好具有唯一性,以免重复采集。

vus520 发表于 2007-12-19 11:11:25

说白了,就是一个筛选!

用Len()函数吧,呵呵!

sushy 发表于 2007-12-19 16:47:06

mysql一个道理的。:lol :lol :lol

skycity999 发表于 2008-2-12 14:35:11

:lol 太好了。经典,学习了。谢谢楼主分享!

jeffery1001 发表于 2008-2-28 14:05:01

哦:ali12ls 学习了

firedlove 发表于 2008-3-1 12:52:19

:ali12ls :ali12ls
页: [1] 2
查看完整版本: 关于对无效采集重新采集的解决办法