|
菜鸟文章,高手莫看.
由于经验不足,所以走了很多弯路.
采集某网站的时候,由于某些网络原因,10000个内容页面,有1600个是无效采集.(无效采集就是导入数据库的所有内容为空)
自己的做法是,将这些无效采集导出到记事本中,然后再重新采集一次.但是这个方法效率及其低下,容易出错.
经老大指点,发现了一个更为有效的方法,与大家分享.
我是以数据库中标题列无效认为是无效采集.
1.打开采集数据库 SpiderResult.mdb中的表Content
2. 选择 记录--筛选--按窗体筛选
3.出来的新页面中,在标题的一栏中输入 "" 也就是两个英文双引号.点击 筛选 ---应用筛选/排序 .或者直接点击倒三角漏洞的图标,就可以得到所有的无效记录,
4.选中 已采 列,点击 编辑--替换 ,出来的弹出筐中将 -1 替换为0 (关键步骤)
5 关闭表, 提示是否保存对表"content"设计的更改,选择否(是也可以,无所谓的)
6.打开火车头,去掉采网址,加上采内容,如果要上传的话,就加上发内容.(关键步骤,去掉采网址,加上采内容)
7.点击开始,就可以补充那些没有采集的内容了.
此方法,高效,简单,而且采集的速度快.占用内存小.
[ 本帖最后由 沦陷今生 于 2008-2-8 10:04 编辑 ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
评分
-
1
查看全部评分
-
|