catchsha 发表于 2008-10-27 11:57:01

循环采集的时候怎样才能避免重复采集

我设置内容为列表形式页面,后面具体内容是通过多页结构获得,现在发现这样会导致重复采集具体内容页面,有没有办法避免掉,比如设定多页里面有这个地址就不要采集了,谢谢


例如采集alibaba就会遇到这样的问题

sushy 发表于 2008-10-27 12:28:09

没搞明白,抽象思维太差。能否举例说明?

catchsha 发表于 2008-10-28 13:35:05

例如采集新蛋数据
http://www.newegg.com.cn/Products/CTIndex.aspx?ctid=612

采集该商品
"Edifier 漫步者 R1000TC 北美版 2.0 音箱经典音箱,值得拥有! "http://www.newegg.com.cn/Products/ProductDetail.aspx?sysno=21662

后来发现此商品在另外分类也出现 ,但商品最终地址是一样的

如果采用循环采集的话 就会重复采集,因为选用的内容页是分类列表页面,所以重复过滤是过滤不掉的...

这下明白了吧

catchsha 发表于 2008-10-28 13:40:09

思前想后 这个问题的解决方法
最好是 采集时候有个多余标签,用来采集标识符,如果标识符相同就不要采了
不过好像现在的版本火车头没有这个功能
最好新版时候能够加入该功能,
速度会影响,但对网站效率是有提高

沦陷今生 发表于 2008-10-28 13:42:47

可以编写发布接口,在接口中实现,如果包含相同标题重复数据则不发布
页: [1]
查看完整版本: 循环采集的时候怎样才能避免重复采集