希望能增加标题是否重复的判断
因为本人是利用标签循环匹配采集一个页面内的信息作为多条记录的,不过发现这样以前采集过的信息也会重新采集,虽然有些CMS能够利用自身程序来过滤,不过有些特殊发布就没有这个功能了,所以希望火车能增加个判断标题是否重复顺便说下火车还真是好东西啊:lol 采集完以后再进行一次数据库操作,不就行了?
回复 2楼 的帖子
治标回复 3楼 的帖子
如果想治本,火车基本上就没法开了!小数据还都好,数据多了,一个个去匹配哟,这是常识问题!
哈哈 !!
回复 4楼 的帖子
帝国程序都可以判断标题而发布,火车没法开就是怪事。我觉得火车做成标题判断或网址判断就好。 现在各网站都是互相采集,如果只用网址判断重复贴,就会采集好多相同内容的贴回来火车可以听听使用者的建议啊 我和楼主遇到的问题一样,很多重复记录,于是我在数据库删除重复记录,然后出了怪事。发布的时候竟然无视数据里已经无重复数据的事实,还是把多余的发布上去了。我看了数据库,也看了“本地编辑任务采集数据”,里没都已经没有了重复数据。 真不知这些重复数据是从哪里出来的?请高人解答。 历史帖子回顾中。
页:
[1]