发新话题
打印

[3.2版] 建议增加2级列表下对1级列表的加工处理

建议增加2级列表下对1级列表的加工处理

我今天留意了一下霏凡软件站和天空软件站。

霏凡软件站 :

0级列表  http://www.crsky.com/list/r_(*)_1.html   *=1-13

1级列表   采集0级别列表中包含  list/s_  的网址

2级页面  采集1级列表上的内容。

这样看来似乎是完美的。但是问题的关键在于 从0级列表中采集1级列表,只能得到 http://www.crsky.com/list/s_(*)_1.html

显然,在1级列表页面既有我要采集的2级页面,也就是最终页面,也有

http://www.crsky.com/list/s_(*)_2.html
http://www.crsky.com/list/s_(*)_3.html
http://www.crsky.com/list/s_(*)_4.html

这样的1级列表分页。

其实这个就是1级列表的分页了。有的网站是有1级列表分页的。如果将此调整为1级采集,自然可以处理了,但是似乎不甘心。


这些网址同时也是1级列表中的一部分。但是他们存在于1级列表页面,而不是0级列表页面,即使我想通过手工处理也不行。

如果一定要采集这个网站的话,我想,就目前火车头来说,必须通过二次采集才能完成。

第一次,采集到二级列表,第二次,直接将二级列表作为0级列表,采集内容。


当然,有一种更为变态的方法,也可以一次搞定。
那就是0级深度直接采集页面  http://www.crsky.com/soft/(*).html    *=0-最大值   不过这样似乎太BT了


提的建议是:

建议改善对在0级列表下采集到的1级列表的处理的灵活性。

现在是0级列表下采到的1级列表是什么,就是什么,不能经过任何处理。
改进后可以对1级列表进行重新编辑分配   如 http://www.crsky.com/list/s_(*)_1.html  可以扩展为 http://www.crsky.com/list/s_(*)_(*2).html  *2=1-某个值  

对1级列表可以进行编辑  如   http://www.sohu.com/news/111111111.html  可以编辑成  http://www.sohu.com/news/111111111/(*).html  *=1-某个值  这个值可以在相关页面取得。

建议增加3-N级列表的深度采集。

TOP

支持下
天蓝茶业网店
删除悲伤情感
铁观音茶叶部落
免费帮人做规则,要求在他网站上加个链接!

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.142987 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-7 15:59 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档