我也用火车头一段时间了,怎么这个简单的分页我不会!
就是你采集一个页面里面有█此页面包含多个分页:
█1:http://www.6to23.com/img/xiaohua/200912/article_4753.html
█2:http://www.6to23.com/img/xiaohua/200912/article_4753_1.html
█3:http://www.6to23.com/img/xiaohua/200912/article_4753_2.html
█4:http://www.6to23.com/img/xiaohua/200912/article_4753_3.html
█5:http://www.6to23.com/img/xiaohua/200912/article_4753_4.html
█6:http://www.6to23.com/img/xiaohua/200912/article_4753_5.html
█7:http://www.6to23.com/img/xiaohua/200912/article_4753_6.html
█8:http://www.6to23.com/img/xiaohua/200912/article_4753_7.html
但是
1:http://www.6to23.com/img/xiaohua/200912/article_4753.html
2:http://www.6to23.com/img/xiaohua/200912/article_4753_1.html
这两页是一样的,如何和消除其中一页?
方法1 因为目标页包含的是http://www.6to23.com/img/xiaohua/200912/article_4753.html,能头通过内置规则将其转化为article_4753_1.html
方法2也可以通过规则吧采集到得这些中的第一个去掉,因为第一个和其余格式确实不一样!
但是我试了多次都不行!
这么简单的采集我都不会!搞了一天,教程也看了不少,就是没有我要的答案! 匹配: article_[参数]_[参数].html
输出: article_[参数1]_[参数2].html 多谢!我试试。
多谢!我试试。
多谢!我试试。 是的,现在明白了这些参数的用处!
页:
[1]