火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2126|回复: 4

循环采集的时候怎样才能避免重复采集

[复制链接]
发表于 2008-10-27 11:57:01 | 显示全部楼层 |阅读模式
我设置内容为列表形式页面,后面具体内容是通过多页结构获得,现在发现这样会导致重复采集具体内容页面,有没有办法避免掉,比如设定多页里面有这个地址就不要采集了,谢谢


例如采集alibaba就会遇到这样的问题
发表于 2008-10-27 12:28:09 | 显示全部楼层
没搞明白,抽象思维太差。能否举例说明?
 楼主| 发表于 2008-10-28 13:35:05 | 显示全部楼层
例如采集新蛋数据
http://www.newegg.com.cn/Products/CTIndex.aspx?ctid=612

采集该商品
"Edifier 漫步者 R1000TC 北美版 2.0 音箱经典音箱,值得拥有! "  http://www.newegg.com.cn/Products/ProductDetail.aspx?sysno=21662

后来发现此商品在另外分类也出现 ,但商品最终地址是一样的

如果采用循环采集的话 就会重复采集,因为选用的内容页是分类列表页面,所以重复过滤是过滤不掉的...

这下明白了吧
 楼主| 发表于 2008-10-28 13:40:09 | 显示全部楼层
思前想后 这个问题的解决方法
最好是 采集时候有个多余标签,用来采集标识符,如果标识符相同就不要采了
不过好像现在的版本火车头没有这个功能
最好新版时候能够加入该功能,
速度会影响,但对网站效率是有提高
发表于 2008-10-28 13:42:47 | 显示全部楼层
可以编写发布接口,在接口中实现,如果包含相同标题重复数据则不发布
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 14:16

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表