高手治理

fox0555 · 发表于 2008-6-21 15:12:49

当采集列表页的时候，当列表更新时，菜不到数据怎么办？
我试过，这个问题确实存在，该怎么办？

火车头 · 发表于 2008-6-22 12:26:51

是否列表地址重复，删除地址库一下先

sushy · 发表于 2008-6-22 15:19:01

问老大一个问题啊

遇到问题

某A.html页面有如下内容

A 的页面ID 1000

A页面中简介内容（如电影简介）：
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAA

A页面中循环部分内容（如电影下载地址）

1. BBBBBBBBBBBBBBBBBB
2. CCCCCCCCCCCCCCCCCCCCC
3. DDDDDDDDDDDDDDDDDDD

思路

显然，如果将这两个导入到一张表中，有三种可能
1. 简介部分也循环，循环部分也循环，设置为循环添加到新记录。这样才可以将简介与循环部分才能一一对应。但是简介部分占用数据库太多。
2. 简介部分不循环，循环部分循环，这只为循环添加到新记录，这样，只有循环的第一条能有简介，后面的都没有。
3.简介部分不循环，循环部分循环，但是不添加新记录，而是使用分隔符，这样占用数据库最小，但是发布的时候需要修改网站源程序。

进一步思考

一个较好的办法是：

1. 将 A页面的简介导入一张表X中

2. 将 A页面的循环内容循环导入到另外一张表Y中。

也就是说写两条采集规则，以ID关联。我最看好这个方法。

遇到的问题

这样虽然好是好，但是该页面A.html显然要采集两遍。

当我采集了一遍的时候，这个地址已经被保存下来。
当在新任务再次采集的时候，会被提示，重复地址。这样自然采集不到网址，更采集不到页面内容。

折中办法：就是删除PageUrl的数据，或者建立一个新“采集站点”。

那么老大是否可以在程序上增加一个开关，允许用户自行选择是否可重复采集呢？

其中

帐号		自动登录	找回密码
密码			加入会员