sushy 发表于 2007-12-16 12:05:48

建议增加2级列表下对1级列表的加工处理

我今天留意了一下霏凡软件站和天空软件站。

霏凡软件站 :

0级列表http://www.crsky.com/list/r_(*)_1.html   *=1-13

1级列表   采集0级别列表中包含list/s_的网址

2级页面采集1级列表上的内容。

这样看来似乎是完美的。但是问题的关键在于 从0级列表中采集1级列表,只能得到 http://www.crsky.com/list/s_(*)_1.html

显然,在1级列表页面既有我要采集的2级页面,也就是最终页面,也有

http://www.crsky.com/list/s_(*)_2.html
http://www.crsky.com/list/s_(*)_3.html
http://www.crsky.com/list/s_(*)_4.html

这样的1级列表分页。

其实这个就是1级列表的分页了。有的网站是有1级列表分页的。如果将此调整为1级采集,自然可以处理了,但是似乎不甘心。


这些网址同时也是1级列表中的一部分。但是他们存在于1级列表页面,而不是0级列表页面,即使我想通过手工处理也不行。

如果一定要采集这个网站的话,我想,就目前火车头来说,必须通过二次采集才能完成。

第一次,采集到二级列表,第二次,直接将二级列表作为0级列表,采集内容。


当然,有一种更为变态的方法,也可以一次搞定。
那就是0级深度直接采集页面http://www.crsky.com/soft/(*).html    *=0-最大值   不过这样似乎太BT了


提的建议是:

建议改善对在0级列表下采集到的1级列表的处理的灵活性。

现在是0级列表下采到的1级列表是什么,就是什么,不能经过任何处理。
改进后可以对1级列表进行重新编辑分配   如 http://www.crsky.com/list/s_(*)_1.html可以扩展为 http://www.crsky.com/list/s_(*)_(*2).html*2=1-某个值

对1级列表可以进行编辑如   http://www.sohu.com/news/111111111.html可以编辑成http://www.sohu.com/news/111111111/(*).html*=1-某个值这个值可以在相关页面取得。

建议增加3-N级列表的深度采集。

wohense 发表于 2007-12-16 15:53:55

支持下

abcchenlunjiang 发表于 2009-7-6 14:59:43

lbjyuer 发表于 2016-2-9 09:07:22

和你们一块学习。。。

lbjyuer 发表于 2016-2-9 22:14:25

爪,以后学习下。。
页: [1]
查看完整版本: 建议增加2级列表下对1级列表的加工处理