建议增加2级列表下对1级列表的加工处理
我今天留意了一下霏凡软件站和天空软件站。霏凡软件站 :
0级列表http://www.crsky.com/list/r_(*)_1.html *=1-13
1级列表 采集0级别列表中包含list/s_的网址
2级页面采集1级列表上的内容。
这样看来似乎是完美的。但是问题的关键在于 从0级列表中采集1级列表,只能得到 http://www.crsky.com/list/s_(*)_1.html
显然,在1级列表页面既有我要采集的2级页面,也就是最终页面,也有
http://www.crsky.com/list/s_(*)_2.html
http://www.crsky.com/list/s_(*)_3.html
http://www.crsky.com/list/s_(*)_4.html
这样的1级列表分页。
其实这个就是1级列表的分页了。有的网站是有1级列表分页的。如果将此调整为1级采集,自然可以处理了,但是似乎不甘心。
这些网址同时也是1级列表中的一部分。但是他们存在于1级列表页面,而不是0级列表页面,即使我想通过手工处理也不行。
如果一定要采集这个网站的话,我想,就目前火车头来说,必须通过二次采集才能完成。
第一次,采集到二级列表,第二次,直接将二级列表作为0级列表,采集内容。
当然,有一种更为变态的方法,也可以一次搞定。
那就是0级深度直接采集页面http://www.crsky.com/soft/(*).html *=0-最大值 不过这样似乎太BT了
提的建议是:
建议改善对在0级列表下采集到的1级列表的处理的灵活性。
现在是0级列表下采到的1级列表是什么,就是什么,不能经过任何处理。
改进后可以对1级列表进行重新编辑分配 如 http://www.crsky.com/list/s_(*)_1.html可以扩展为 http://www.crsky.com/list/s_(*)_(*2).html*2=1-某个值
对1级列表可以进行编辑如 http://www.sohu.com/news/111111111.html可以编辑成http://www.sohu.com/news/111111111/(*).html*=1-某个值这个值可以在相关页面取得。
建议增加3-N级列表的深度采集。 支持下 和你们一块学习。。。 爪,以后学习下。。
页:
[1]