举报
某A.html页面有如下内容 A 的页面ID 1000 A页面中简介内容(如电影简介): AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAA A页面中循环部分内容(如电影下载地址) 1. BBBBBBBBBBBBBBBBBB 2. CCCCCCCCCCCCCCCCCCCCC 3. DDDDDDDDDDDDDDDDDDD
显然,如果将这两个导入到一张表中,有三种可能 1. 简介部分也循环,循环部分也循环,设置为循环添加到新记录。这样才可以将简介与循环部分才能一一对应。但是简介部分占用数据库太多。 2. 简介部分不循环,循环部分循环,这只为循环添加到新记录,这样,只有循环的第一条能有简介,后面的都没有。 3.简介部分不循环,循环部分循环,但是不添加新记录,而是使用分隔符,这样占用数据库最小,但是发布的时候需要修改网站源程序。
一个较好的办法是: 1. 将 A页面的简介导入一张表X中 2. 将 A页面的循环内容循环导入到另外一张表Y中。 也就是说写两条采集规则,以ID关联。我最看好这个方法。
这样虽然好是好,但是该页面A.html显然要采集两遍。 当我采集了一遍的时候,这个地址已经被保存下来。 当在新任务再次采集的时候,会被提示,重复地址。这样自然采集不到网址,更采集不到页面内容。 折中办法:就是删除PageUrl的数据,或者建立一个新“采集站点”。 那么老大是否可以在程序上增加一个开关,允许用户自行选择是否可重复采集呢?
本版积分规则 发表回复 回帖后跳转到最后一页
|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )
GMT+8, 2025-7-18 10:38
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.