多网站采集同一类数据难题
本帖最后由 iou33449999 于 2017-10-7 15:21 编辑我需要在多个网站采集内容类似的数据(同一类主题的网站,但是每一个网站的内容都不全),需要多网站采集后,最终汇集成一个数据库基本上就可以了,现在的难题是:
1、采集完网站A后,在采集网站B时,网站B有和网站A内容相同的内容(确定是否重复的依据是某个字段C,两个站的采集规则不同,但是字段完全一样),此时我不希望重复采集,只采集网站B有但是网站A没有的数据,这个应该怎么实现呢?就是当发现数据库字段C已经有这个这个数据时就跳过,而不是用B站的数据覆盖A站的数据。
2、进行完上面这个功能后,另外一个问题是,网站B有一个字段是网站A没有的,我希望把这个字段通过网站B补采到数据库里面,但是已经采集过的数据和字段不需要重新采集和覆盖,不只是为了节约时间,而是担心破坏已采集数据。
以上两个问题不知道有办法吗?请大家帮帮我啊!谢谢呢!
你这个问题为什么不利用数据 后期处理那,非要通过 火车头去处理那,也么有任何工具能达到你要求的, 我用了最笨的办法
采集a站后发布到本地
采集B站后发布到本地
然后采集本地的站点
做去除重复处理
页:
[1]