如何采集网址有数字变化的网站?
请教各位大神指点,如何设置规则采集这样的网站:http://paper.ce.cn/jjrb/html/2016-06/15/node_10.htm。它的网址随日期变化而变化,总不能每天改一次吧?请教如何设置规则,起始网址,多级网址该如何设置,需要采集到三级网址,先谢谢各位了!!不好贴图,就给你文字描述吧
直接生成网址就OK。
看你用的是哪个版本直接月分1-12 日期1-31生成。然后没有的,就不采了。
V8版设置如下:
添加开始采集地址--其它网址格式--语法表达生成网址
填写 http://paper.ce.cn/jjrb/html/2016-{0<0,1,6,1,True,False>}/{1<0,1,31,1,True,False>}/node_2.htm
点添加按钮 然后测试。 二级,三级,按照一般采集
V9版本设置:
起始网址--向导添加--批量网址
http://paper.ce.cn/jjrb/html/2016-[地址参数]/[地址参数1]/node_2.htm
然后下方的编辑,可以设置数字变化
你说的是生成网址。
V7-V8版如下操作
设置
V9版如下
V9版设置
采集的时候,会有的页面不存在的现象,不管了。因为有月没有31天2月没有30-31天。会报错。
还有你的网站上如果没这个页面也会404
不影响
页:
[1]