火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2597|回复: 3

发现火车头采集也有采集缺陷 但不是BUG

[复制链接]
发表于 2010-5-2 23:36:07 | 显示全部楼层 |阅读模式
发现火车头采集图片库也有采集缺陷 但不是BUG

本人用火车头不久 采集了几个站  
但今天采集 大旗图片库的时候 http://pic.daqi.com/slide/2851446_13.html 发现其分页内容 可导致无限采集下去
为什么呢 因为大旗把 下一文章内容也框到 翻页的标签里面了。
例子:
<!--pagenation start-->
<div class="pagenation"> <a href="2851446_12.html#t">&lt;</a>
<a href="2851446_10.html#t">10</a>
<a href="2851446_11.html#t">11</a>
<a href="2851446_12.html#t">12</a>
<a class="cur">13</a>
<a href="2851168.html#t">&gt;</a></div>
<!--pagenation end-->

13是最后一页  但下面还有下一标题内容 <a href="2851168.html#t">&gt;</a>
这样就很郁闷了 导致无限循环了

个人有个好的建议  不知道火车头是否已经有这个功能 只是我不知道  我们获取该页面固定文章号 比如 2851446 设置我 [ID]  只获取该[ID]的分页。
这样会相当精确,目前我好像没发现这样的功能,希望火车头能解决,或者知道的朋友能解决。
发表于 2010-5-4 09:47:02 | 显示全部楼层
采集的时候设置下。。分页链接地址样式。。
发表于 2010-5-5 04:32:20 | 显示全部楼层
采集的时候设置下。。分页链接地址样式。。
发表于 2010-5-7 17:10:04 | 显示全部楼层
和这一帖的问题类似。http://bbs.locoy.com/spider-49780-1-2.html。LZ的建议也是我想到的方法之一。
我的想法是要么分页地址也加一个必须包含功能,必须包含里面可能是固定也可以是LZ所说的ID。或者加一个分页地址采集结束的标志。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-29 07:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表