建议增加2级列表下对1级列表的加工处理

sushy 发表于 2007-12-16 12:05:48

我今天留意了一下霏凡软件站和天空软件站。

霏凡软件站：

0级列表http://www.crsky.com/list/r_(*)_1.html *=1-13

1级列表采集0级别列表中包含list/s_的网址

2级页面采集1级列表上的内容。

这样看来似乎是完美的。但是问题的关键在于从0级列表中采集1级列表，只能得到 http://www.crsky.com/list/s_(*)_1.html

显然，在1级列表页面既有我要采集的2级页面，也就是最终页面，也有

http://www.crsky.com/list/s_(*)_2.html
http://www.crsky.com/list/s_(*)_3.html
http://www.crsky.com/list/s_(*)_4.html

这样的1级列表分页。

其实这个就是1级列表的分页了。有的网站是有1级列表分页的。如果将此调整为1级采集，自然可以处理了，但是似乎不甘心。

这些网址同时也是1级列表中的一部分。但是他们存在于1级列表页面，而不是0级列表页面，即使我想通过手工处理也不行。

如果一定要采集这个网站的话，我想，就目前火车头来说，必须通过二次采集才能完成。

第一次，采集到二级列表，第二次，直接将二级列表作为0级列表，采集内容。

当然，有一种更为变态的方法，也可以一次搞定。
那就是0级深度直接采集页面http://www.crsky.com/soft/(*).html *=0-最大值不过这样似乎太BT了

提的建议是：

建议改善对在0级列表下采集到的1级列表的处理的灵活性。

现在是0级列表下采到的1级列表是什么，就是什么，不能经过任何处理。
改进后可以对1级列表进行重新编辑分配如 http://www.crsky.com/list/s_(*)_1.html可以扩展为 http://www.crsky.com/list/s_(*)_(*2).html*2=1-某个值

对1级列表可以进行编辑如 http://www.sohu.com/news/111111111.html可以编辑成http://www.sohu.com/news/111111111/(*).html*=1-某个值这个值可以在相关页面取得。

建议增加3-N级列表的深度采集。

wohense 发表于 2007-12-16 15:53:55

支持下

abcchenlunjiang 发表于 2009-7-6 14:59:43

lbjyuer 发表于 2016-2-9 09:07:22

和你们一块学习。。。

lbjyuer 发表于 2016-2-9 22:14:25

爪，以后学习下。。

页: [1]

火车采集器软件交流官方论坛's Archiver

建议增加2级列表下对1级列表的加工处理