发现火车头采集也有采集缺陷但不是BUG

makang1223 发表于 2010-5-2 23:36:07

发现火车头采集图片库也有采集缺陷但不是BUG

本人用火车头不久采集了几个站
但今天采集大旗图片库的时候 http://pic.daqi.com/slide/2851446_13.html 发现其分页内容可导致无限采集下去
为什么呢因为大旗把下一文章内容也框到翻页的标签里面了。
例子：

<div class="pagenation"> <a href="2851446_12.html#t"><</a>
<a href="2851446_10.html#t">10</a>
<a href="2851446_11.html#t">11</a>
<a href="2851446_12.html#t">12</a>
<a class="cur">13</a>
<a href="2851168.html#t">></a></div>


13是最后一页但下面还有下一标题内容 <a href="2851168.html#t">></a>
这样就很郁闷了导致无限循环了

个人有个好的建议不知道火车头是否已经有这个功能只是我不知道我们获取该页面固定文章号比如 2851446 设置我只获取该的分页。
这样会相当精确，目前我好像没发现这样的功能，希望火车头能解决，或者知道的朋友能解决。

月白发表于 2010-5-4 09:47:02

采集的时候设置下。。分页链接地址样式。。

wensrrr 发表于 2010-5-5 04:32:20

采集的时候设置下。。分页链接地址样式。。

live2learn 发表于 2010-5-7 17:10:04

和这一帖的问题类似。http://bbs.locoy.com/spider-49780-1-2.html。LZ的建议也是我想到的方法之一。
我的想法是要么分页地址也加一个必须包含功能，必须包含里面可能是固定也可以是LZ所说的ID。或者加一个分页地址采集结束的标志。

页: [1]

火车采集器软件交流官方论坛's Archiver

发现火车头采集也有采集缺陷 但不是BUG

发现火车头采集也有采集缺陷但不是BUG