循环采集的时候怎样才能避免重复采集
我设置内容为列表形式页面,后面具体内容是通过多页结构获得,现在发现这样会导致重复采集具体内容页面,有没有办法避免掉,比如设定多页里面有这个地址就不要采集了,谢谢例如采集alibaba就会遇到这样的问题 没搞明白,抽象思维太差。能否举例说明? 例如采集新蛋数据
http://www.newegg.com.cn/Products/CTIndex.aspx?ctid=612
采集该商品
"Edifier 漫步者 R1000TC 北美版 2.0 音箱经典音箱,值得拥有! "http://www.newegg.com.cn/Products/ProductDetail.aspx?sysno=21662
后来发现此商品在另外分类也出现 ,但商品最终地址是一样的
如果采用循环采集的话 就会重复采集,因为选用的内容页是分类列表页面,所以重复过滤是过滤不掉的...
这下明白了吧 思前想后 这个问题的解决方法
最好是 采集时候有个多余标签,用来采集标识符,如果标识符相同就不要采了
不过好像现在的版本火车头没有这个功能
最好新版时候能够加入该功能,
速度会影响,但对网站效率是有提高 可以编写发布接口,在接口中实现,如果包含相同标题重复数据则不发布
页:
[1]