发现火车头采集也有采集缺陷 但不是BUG
发现火车头采集图片库也有采集缺陷 但不是BUG本人用火车头不久 采集了几个站
但今天采集 大旗图片库的时候 http://pic.daqi.com/slide/2851446_13.html 发现其分页内容 可导致无限采集下去
为什么呢 因为大旗把 下一文章内容也框到 翻页的标签里面了。
例子:
<!--pagenation start-->
<div class="pagenation"> <a href="2851446_12.html#t"><</a>
<a href="2851446_10.html#t">10</a>
<a href="2851446_11.html#t">11</a>
<a href="2851446_12.html#t">12</a>
<a class="cur">13</a>
<a href="2851168.html#t">></a></div>
<!--pagenation end-->
13是最后一页但下面还有下一标题内容 <a href="2851168.html#t">></a>
这样就很郁闷了 导致无限循环了
个人有个好的建议不知道火车头是否已经有这个功能 只是我不知道我们获取该页面固定文章号 比如 2851446 设置我 只获取该的分页。
这样会相当精确,目前我好像没发现这样的功能,希望火车头能解决,或者知道的朋友能解决。 采集的时候设置下。。分页链接地址样式。。 采集的时候设置下。。分页链接地址样式。。 和这一帖的问题类似。http://bbs.locoy.com/spider-49780-1-2.html。LZ的建议也是我想到的方法之一。
我的想法是要么分页地址也加一个必须包含功能,必须包含里面可能是固定也可以是LZ所说的ID。或者加一个分页地址采集结束的标志。
页:
[1]