列车员 发表于 2010-8-14 11:07:36

每次刷新列表,文章URL就会加上变量,导致每次都是新纪录(已解决)

本帖最后由 列车员 于 2010-8-17 08:20 编辑

(已解决)
谢谢楼下的所有朋友。在你们的指点下,我一再尝试,终于成功了。现在分享经验。

使用自定义采集网址
规则:<a href="[参数]?ci=(*)" target=_blank>
实际:[参数1]


我要采集的一个站是这样的。每次刷新列表,文章URL就会改变后面的变量值,导致每次采集都是新纪录,不会显示重复,怎么采集?
例如
第一次采集可能是:/a/1086.html?ci=1198【1198是刷新列表后的随机变量】
第二次采集可能是:/a/1086.html?ci=2388【2388是刷新列表后的随机变量】
怎么样能把【.html】后面的都不采集呢?

afanfan2007 发表于 2010-8-14 13:06:22

最好能吧网址贴出来

列车员 发表于 2010-8-14 14:09:12

回复 2# afanfan2007

是我们学校的内部资源,自己学校的校园网才能访问的。那些书籍名和介绍,我想采集下来。
刚才有一位朋友和我说【自定义采集的规则】,我尝试了很久,都没成功。
可能自己还没弄懂那个功能。其实就是采集的时候不采集最后那个变量就行了。
但是不知道怎么做。

zjyk1984 发表于 2010-8-14 15:57:29

用自定义方式获取采集的网址应该可以的{:4_197:}

afanfan2007 发表于 2010-8-14 17:56:52

4 楼是正确答案

列车员 发表于 2010-8-17 07:39:04

回复 4# zjyk1984


    大哥,能不能教教我,我搞了很久都不行。

列车员 发表于 2010-8-17 08:17:35

已经解决了。谢谢大家。楼主有分享经验。
页: [1]
查看完整版本: 每次刷新列表,文章URL就会加上变量,导致每次都是新纪录(已解决)