找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 243|回复: 3

多网站采集同一类数据难题

[复制链接]
发表于 2017-10-7 15:04:49 | 显示全部楼层 |阅读模式
本帖最后由 iou33449999 于 2017-10-7 15:21 编辑

我需要在多个网站采集内容类似的数据(同一类主题的网站,但是每一个网站的内容都不全),需要多网站采集后,最终汇集成一个数据库基本上就可以了,现在的难题是:
1、采集完网站A后,在采集网站B时,网站B有和网站A内容相同的内容(确定是否重复的依据是某个字段C,两个站的采集规则不同,但是字段完全一样),此时我不希望重复采集,只采集网站B有但是网站A没有的数据,这个应该怎么实现呢?就是当发现数据库字段C已经有这个这个数据时就跳过,而不是用B站的数据覆盖A站的数据。
2、进行完上面这个功能后,另外一个问题是,网站B有一个字段是网站A没有的,我希望把这个字段通过网站B补采到数据库里面,但是已经采集过的数据和字段不需要重新采集和覆盖,不只是为了节约时间,而是担心破坏已采集数据。

以上两个问题不知道有办法吗?请大家帮帮我啊!谢谢呢!
发表于 2017-10-8 16:58:56 | 显示全部楼层
你这个问题  为什么不利用数据 后期处理那,非要通过 火车头去处理那,也么有任何工具能达到你要求的,
发表于 2017-10-10 12:21:12 | 显示全部楼层
我用了最笨的办法
采集a站后发布到本地
采集B站后发布到本地
然后采集本地的站点
做去除重复处理
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 小黑屋|手机版|Archiver| 火车采集器官方站  

A
安全联盟

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.2( 皖ICP备06000549 )

快速回复 返回顶部 返回列表