fox0555 发表于 2008-6-21 15:12:49

高手治理

当采集列表页的时候,当列表更新时,菜不到数据怎么办?
我试过,这个问题确实存在,该怎么办?

火车头 发表于 2008-6-22 12:26:51

是否列表地址重复,删除地址库一下先

sushy 发表于 2008-6-22 15:19:01

问老大一个问题啊

遇到问题

某A.html页面有如下内容

A 的页面ID1000

A页面中简介内容(如电影简介):
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAA

A页面中循环部分内容(如电影下载地址)

1. BBBBBBBBBBBBBBBBBB
2. CCCCCCCCCCCCCCCCCCCCC
3. DDDDDDDDDDDDDDDDDDD


思路

显然,如果将这两个导入到一张表中,有三种可能
1. 简介部分也循环,循环部分也循环,设置为循环添加到新记录。这样才可以将简介与循环部分才能一一对应。但是简介部分占用数据库太多。
2. 简介部分不循环,循环部分循环,这只为循环添加到新记录,这样,只有循环的第一条能有简介,后面的都没有。
3.简介部分不循环,循环部分循环,但是不添加新记录,而是使用分隔符,这样占用数据库最小,但是发布的时候需要修改网站源程序。



进一步思考


一个较好的办法是:

1. 将 A页面的简介导入一张表X中

2. 将 A页面的循环内容循环导入到另外一张表Y中。

也就是说写两条采集规则,以ID关联。我最看好这个方法。


遇到的问题

这样虽然好是好,但是该页面A.html显然要采集两遍。

当我采集了一遍的时候,这个地址已经被保存下来。
当在新任务再次采集的时候,会被提示,重复地址。这样自然采集不到网址,更采集不到页面内容。

折中办法:就是删除PageUrl的数据,或者建立一个新“采集站点”。

那么老大是否可以在程序上增加一个开关,允许用户自行选择是否可重复采集呢?




其中
页: [1]
查看完整版本: 高手治理