发现火车头采集也有采集缺陷但不是BUG

makang1223 · 发表于 2010-5-2 23:36:07

发现火车头采集图片库也有采集缺陷但不是BUG

本人用火车头不久采集了几个站
但今天采集大旗图片库的时候 http://pic.daqi.com/slide/2851446_13.html 发现其分页内容可导致无限采集下去
为什么呢因为大旗把下一文章内容也框到翻页的标签里面了。
例子：

<div class="pagenation"> <a href="2851446_12.html#t"><</a>
<a href="2851446_10.html#t">10</a>
<a href="2851446_11.html#t">11</a>
<a href="2851446_12.html#t">12</a>
<a class="cur">13</a>
<a href="2851168.html#t">></a></div>


13是最后一页  但下面还有下一标题内容 <a href="2851168.html#t">></a>
这样就很郁闷了导致无限循环了

个人有个好的建议  不知道火车头是否已经有这个功能只是我不知道  我们获取该页面固定文章号比如 2851446 设置我 [ID]  只获取该[ID]的分页。
这样会相当精确，目前我好像没发现这样的功能，希望火车头能解决，或者知道的朋友能解决。

月白 · 发表于 2010-5-4 09:47:02

采集的时候设置下。。分页链接地址样式。。

wensrrr · 发表于 2010-5-5 04:32:20

采集的时候设置下。。分页链接地址样式。。

live2learn · 发表于 2010-5-7 17:10:04

和这一帖的问题类似。http://bbs.locoy.com/spider-49780-1-2.html。LZ的建议也是我想到的方法之一。
我的想法是要么分页地址也加一个必须包含功能，必须包含里面可能是固定也可以是LZ所说的ID。或者加一个分页地址采集结束的标志。

帐号		自动登录	找回密码
密码			加入会员

发现火车头采集也有采集缺陷 但不是BUG

发现火车头采集也有采集缺陷但不是BUG