每次刷新列表,文章URL就会加上变量,导致每次都是新纪录(已解决)
本帖最后由 列车员 于 2010-8-17 08:20 编辑(已解决)
谢谢楼下的所有朋友。在你们的指点下,我一再尝试,终于成功了。现在分享经验。
使用自定义采集网址
规则:<a href="[参数]?ci=(*)" target=_blank>
实际:[参数1]
我要采集的一个站是这样的。每次刷新列表,文章URL就会改变后面的变量值,导致每次采集都是新纪录,不会显示重复,怎么采集?
例如
第一次采集可能是:/a/1086.html?ci=1198【1198是刷新列表后的随机变量】
第二次采集可能是:/a/1086.html?ci=2388【2388是刷新列表后的随机变量】
怎么样能把【.html】后面的都不采集呢? 最好能吧网址贴出来 回复 2# afanfan2007
是我们学校的内部资源,自己学校的校园网才能访问的。那些书籍名和介绍,我想采集下来。
刚才有一位朋友和我说【自定义采集的规则】,我尝试了很久,都没成功。
可能自己还没弄懂那个功能。其实就是采集的时候不采集最后那个变量就行了。
但是不知道怎么做。 用自定义方式获取采集的网址应该可以的{:4_197:} 4 楼是正确答案 回复 4# zjyk1984
大哥,能不能教教我,我搞了很久都不行。 已经解决了。谢谢大家。楼主有分享经验。
页:
[1]