如何逐一采集网页某区域内所有网址呢?并且是一个网址...
想采集某论坛,已采集网址,帖子的目标区域特点如下:包含2 - 15个网址,同时包括其他内容,其他内容的排版毫无规律。我现在只想采集帖子里面这2 - 15个网址,其他内容都不要,该怎么设计采集规则呢?
同时,还希望,根据该帖子所包含网址数量(2 - 15)来决定该页面采集的次数,也即,在数据库里面生成多少条记录,比如有5个网址时,就把每一个网址分别写入数据库里面的“网址”字段,一共生成5条记录,而这5条记录的标题都是帖子的标题。
所以请问,以上采集可以实现吗?谢谢!
先做多页设置区域再设置标签循环获取 用新记录保存 http://bbs.locoy.com/spider-151384-1-1.html 加上网址中必须包含 “spider” 这样的条件。
页:
[1]