iou33449999 发表于 2017-8-9 12:31:02

如何逐一采集网页某区域内所有网址呢?并且是一个网址...

想采集某论坛,已采集网址,帖子的目标区域特点如下:包含2 - 15个网址,同时包括其他内容,其他内容的排版毫无规律。
我现在只想采集帖子里面这2 - 15个网址,其他内容都不要,该怎么设计采集规则呢?

同时,还希望,根据该帖子所包含网址数量(2 - 15)来决定该页面采集的次数,也即,在数据库里面生成多少条记录,比如有5个网址时,就把每一个网址分别写入数据库里面的“网址”字段,一共生成5条记录,而这5条记录的标题都是帖子的标题。

所以请问,以上采集可以实现吗?谢谢!

leweizxl 发表于 2017-8-9 12:33:33

先做多页设置区域再设置标签循环获取 用新记录保存

Xi.han 发表于 2017-8-11 09:27:19

http://bbs.locoy.com/spider-151384-1-1.html   加上网址中必须包含 “spider” 这样的条件。
页: [1]
查看完整版本: 如何逐一采集网页某区域内所有网址呢?并且是一个网址...