bdtmgk 发表于 2010-1-5 23:49:28

我也用火车头一段时间了,怎么这个简单的分页我不会!

就是你采集一个页面里面有
█此页面包含多个分页:
█1:http://www.6to23.com/img/xiaohua/200912/article_4753.html
█2:http://www.6to23.com/img/xiaohua/200912/article_4753_1.html
█3:http://www.6to23.com/img/xiaohua/200912/article_4753_2.html
█4:http://www.6to23.com/img/xiaohua/200912/article_4753_3.html
█5:http://www.6to23.com/img/xiaohua/200912/article_4753_4.html
█6:http://www.6to23.com/img/xiaohua/200912/article_4753_5.html
█7:http://www.6to23.com/img/xiaohua/200912/article_4753_6.html
█8:http://www.6to23.com/img/xiaohua/200912/article_4753_7.html

但是
1:http://www.6to23.com/img/xiaohua/200912/article_4753.html
2:http://www.6to23.com/img/xiaohua/200912/article_4753_1.html

这两页是一样的,如何和消除其中一页?

方法1 因为目标页包含的是http://www.6to23.com/img/xiaohua/200912/article_4753.html,能头通过内置规则将其转化为article_4753_1.html

方法2也可以通过规则吧采集到得这些中的第一个去掉,因为第一个和其余格式确实不一样!

但是我试了多次都不行!

这么简单的采集我都不会!搞了一天,教程也看了不少,就是没有我要的答案!

都市乞丐 发表于 2010-1-6 10:08:57

匹配: article_[参数]_[参数].html

输出: article_[参数1]_[参数2].html

bdtmgk 发表于 2010-1-7 14:51:03

多谢!我试试。
多谢!我试试。
多谢!我试试。

bdtmgk 发表于 2010-1-13 22:59:13

是的,现在明白了这些参数的用处!
页: [1]
查看完整版本: 我也用火车头一段时间了,怎么这个简单的分页我不会!