采集dz论坛帖子网址有一个sid=(变量),这样该如何防止采集重复的帖子?
采集那些没有静态的dz论坛,网址最后会有一个sid=(变量)的参数,如果是一次性采集到不是什么问题,不过我经常采集那个论坛,导致经常采集到重复帖子,这样的情况下我该如何设置才能防止不采集到重复帖子呢。给大家一个网址测试:http://myand.com/forumdisplay.php?fid=124&sid=rzzxUj 晕
人都到哪去了 嘿,采集过的地址都会在数据库有所记录!
你要保证采集时按统一的地址格式进行采集就能保证地址不出错! 用自定义连接.
就采
http://myand.com/forumdisplay.php?fid=124
这个地址.其它的不要.
脚本规则
http://myand.com/forumdisplay.php?fid=[参数]&
实际连接
http://myand.com/forumdisplay.php?fid=[参数1] 非常感谢楼上的
不过这个办法不行 你采的那个论坛的地址是动态的
形式应该是www.xxx.com/threadview.php?tid=xxx&sid=xxx
把后面的SID去了也可以照常访问的
页:
[1]