论坛采集时帖子,同一内容地址变化而重复采集,如何解决?
比如phpwind 一个帖子在各个分页的时候帖子地址是不一样的.在第二页时候地址后被加上fpage=2,第三页面变成fpage=3,类推.这样在下次更新的时候,部分帖子就会被重复采集发布.其实只要删除掉地址内的fpage=(*),地址可以正常访问,并用不会重复采集.火车头有这样功能吗?就是对采集下来的地址进行修正.如果有的话,请告知下.非常感谢.本人用的3.2版. 你只采一页就不用重复了 确实是个问题 原帖由 rq204 于 2007-12-31 12:13 发表 http://bbs.locoy.com/images/common/back.gif
你只采一页就不用重复了
汗死.后面的帖子是会被重复顶上来的.
不过目前也只能这样了,采集完了再回头整理一遍.
但希望程序可以改进,必将不是大难度的问题. 同时是否可以考虑添加一些其他的发布内容剔除规则,比如按照采集下来的时间,比仅仅按重复地址要灵活很多。
页:
[1]