wenkang 发表于 2015-10-29 14:50:47

火车头采集怎么让数据不去重复 

需要根据关键词来采集一批数据,但关键词大多数是相近的词,采集出的东西数据会自己去重复
我想根据我的关键词留下采集的URL不要让机器去得,怎么办啊~{:soso_e184:}


indexhuo 发表于 2015-10-29 20:47:43

有方法的                     

老雷 发表于 2015-10-30 02:53:48

1、火车上 取消:重复。
2、采集当前网址链接(正则规则,见百度)
页: [1]
查看完整版本: 火车头采集怎么让数据不去重复