高手治理
当采集列表页的时候,当列表更新时,菜不到数据怎么办?我试过,这个问题确实存在,该怎么办? 是否列表地址重复,删除地址库一下先 问老大一个问题啊
遇到问题
某A.html页面有如下内容
A 的页面ID1000
A页面中简介内容(如电影简介):
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAA
A页面中循环部分内容(如电影下载地址)
1. BBBBBBBBBBBBBBBBBB
2. CCCCCCCCCCCCCCCCCCCCC
3. DDDDDDDDDDDDDDDDDDD
思路
显然,如果将这两个导入到一张表中,有三种可能
1. 简介部分也循环,循环部分也循环,设置为循环添加到新记录。这样才可以将简介与循环部分才能一一对应。但是简介部分占用数据库太多。
2. 简介部分不循环,循环部分循环,这只为循环添加到新记录,这样,只有循环的第一条能有简介,后面的都没有。
3.简介部分不循环,循环部分循环,但是不添加新记录,而是使用分隔符,这样占用数据库最小,但是发布的时候需要修改网站源程序。
进一步思考
一个较好的办法是:
1. 将 A页面的简介导入一张表X中
2. 将 A页面的循环内容循环导入到另外一张表Y中。
也就是说写两条采集规则,以ID关联。我最看好这个方法。
遇到的问题
这样虽然好是好,但是该页面A.html显然要采集两遍。
当我采集了一遍的时候,这个地址已经被保存下来。
当在新任务再次采集的时候,会被提示,重复地址。这样自然采集不到网址,更采集不到页面内容。
折中办法:就是删除PageUrl的数据,或者建立一个新“采集站点”。
那么老大是否可以在程序上增加一个开关,允许用户自行选择是否可重复采集呢?
其中
页:
[1]