我也用火车头一段时间了，怎么这个简单的分页我不会！

bdtmgk · 发表于 2010-1-5 23:49:28

就是你采集一个页面里面有
█此页面包含多个分页：
█1:http://www.6to23.com/img/xiaohua/200912/article_4753.html
█2:http://www.6to23.com/img/xiaohua/200912/article_4753_1.html
█3:http://www.6to23.com/img/xiaohua/200912/article_4753_2.html
█4:http://www.6to23.com/img/xiaohua/200912/article_4753_3.html
█5:http://www.6to23.com/img/xiaohua/200912/article_4753_4.html
█6:http://www.6to23.com/img/xiaohua/200912/article_4753_5.html
█7:http://www.6to23.com/img/xiaohua/200912/article_4753_6.html
█8:http://www.6to23.com/img/xiaohua/200912/article_4753_7.html

但是
1:http://www.6to23.com/img/xiaohua/200912/article_4753.html
2:http://www.6to23.com/img/xiaohua/200912/article_4753_1.html

这两页是一样的，如何和消除其中一页？

方法1 因为目标页包含的是http://www.6to23.com/img/xiaohua/200912/article_4753.html，能头通过内置规则将其转化为article_4753_1.html

方法2 也可以通过规则吧采集到得这些中的第一个去掉，因为第一个和其余格式确实不一样！

但是我试了多次都不行！

这么简单的采集我都不会！搞了一天，教程也看了不少，就是没有我要的答案！

都市乞丐 · 发表于 2010-1-6 10:08:57

匹配: article_[参数]_[参数].html

输出: article_[参数1]_[参数2].html

bdtmgk · 发表于 2010-1-7 14:51:03

多谢！我试试。
多谢！我试试。
多谢！我试试。

bdtmgk · 发表于 2010-1-13 22:59:13

是的，现在明白了这些参数的用处!

帐号		自动登录	找回密码
密码			加入会员