6683637 发表于 2007-12-31 16:49:50

采集dz论坛帖子网址有一个sid=(变量),这样该如何防止采集重复的帖子?

  采集那些没有静态的dz论坛,网址最后会有一个sid=(变量)的参数,如果是一次性采集到不是什么问题,不过我经常采集那个论坛,导致经常采集到重复帖子,这样的情况下我该如何设置才能防止不采集到重复帖子呢。

  给大家一个网址测试:http://myand.com/forumdisplay.php?fid=124&sid=rzzxUj

6683637 发表于 2007-12-31 17:04:22


人都到哪去了

vus520 发表于 2007-12-31 17:30:48

嘿,采集过的地址都会在数据库有所记录!

你要保证采集时按统一的地址格式进行采集就能保证地址不出错!

fal 发表于 2007-12-31 17:46:41

用自定义连接.
就采
http://myand.com/forumdisplay.php?fid=124
这个地址.其它的不要.
脚本规则
http://myand.com/forumdisplay.php?fid=[参数]&
实际连接
http://myand.com/forumdisplay.php?fid=[参数1]

6683637 发表于 2008-1-10 22:23:35

非常感谢楼上的
不过这个办法不行

Lim^^sIsO 发表于 2008-1-10 22:43:58

你采的那个论坛的地址是动态的
形式应该是www.xxx.com/threadview.php?tid=xxx&sid=xxx

把后面的SID去了也可以照常访问的
页: [1]
查看完整版本: 采集dz论坛帖子网址有一个sid=(变量),这样该如何防止采集重复的帖子?