批量/多页采集数据
需求如下:A页面有如下网址
<a href="xx/123/xa3.html">网址1</a>
<a href="woi/3984xs/jfow0.html">网址2</a>
......
<a href="ccc.uvdc.com">网址N</a>
这里每个网址打开之后,打开之后的页面中又有如下网址.已"网址1"面举例(加入这个页面叫B页面)
<a href="fjflskjflj.html">网址11</a>
<a href="jflwirpwkd123">网址12</a>
......
<a href="uowixcosf">网址1N</a>
然后点击B页面的网址(假如打开之后的页面叫C页面),要采集的信息就在C页面
需求简言之就是:
A页面为列表页(但列表网址无规则),B页面也为列表页(但列表地址无规则)
这种批量采集要怎样做?
比如采集火车头论坛:
http://bbs.locoy.com/
的信息 可以用多页采集试试。 多页采集,没试过。一般都是一页一页采集的啊。。
页:
[1]