hhhhhdddd 发表于 2016-6-16 10:33:30

如何采集网址有数字变化的网站?

请教各位大神指点,如何设置规则采集这样的网站:http://paper.ce.cn/jjrb/html/2016-06/15/node_10.htm。它的网址随日期变化而变化,总不能每天改一次吧?请教如何设置规则,起始网址,多级网址该如何设置,需要采集到三级网址,先谢谢各位了!!



ahuihome 发表于 2016-6-21 22:03:51

不好贴图,就给你文字描述吧

直接生成网址就OK。
看你用的是哪个版本直接月分1-12   日期1-31生成。然后没有的,就不采了。
V8版设置如下:
添加开始采集地址--其它网址格式--语法表达生成网址

填写   http://paper.ce.cn/jjrb/html/2016-{0<0,1,6,1,True,False>}/{1<0,1,31,1,True,False>}/node_2.htm
点添加按钮    然后测试。 二级,三级,按照一般采集

V9版本设置:

起始网址--向导添加--批量网址
http://paper.ce.cn/jjrb/html/2016-[地址参数]/[地址参数1]/node_2.htm
然后下方的编辑,可以设置数字变化

ahuihome 发表于 2016-6-24 11:32:37

你说的是生成网址。
V7-V8版如下操作
设置

V9版如下

V9版设置


采集的时候,会有的页面不存在的现象,不管了。因为有月没有31天2月没有30-31天。会报错。
还有你的网站上如果没这个页面也会404
不影响






页: [1]
查看完整版本: 如何采集网址有数字变化的网站?