火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4016|回复: 4

建议增加2级列表下对1级列表的加工处理

[复制链接]
发表于 2007-12-16 12:05:48 | 显示全部楼层 |阅读模式
我今天留意了一下霏凡软件站和天空软件站。

霏凡软件站 :

0级列表  http://www.crsky.com/list/r_(*)_1.html   *=1-13

1级列表   采集0级别列表中包含  list/s_  的网址

2级页面  采集1级列表上的内容。

这样看来似乎是完美的。但是问题的关键在于 从0级列表中采集1级列表,只能得到 http://www.crsky.com/list/s_(*)_1.html

显然,在1级列表页面既有我要采集的2级页面,也就是最终页面,也有

http://www.crsky.com/list/s_(*)_2.html
http://www.crsky.com/list/s_(*)_3.html
http://www.crsky.com/list/s_(*)_4.html

这样的1级列表分页。

其实这个就是1级列表的分页了。有的网站是有1级列表分页的。如果将此调整为1级采集,自然可以处理了,但是似乎不甘心。


这些网址同时也是1级列表中的一部分。但是他们存在于1级列表页面,而不是0级列表页面,即使我想通过手工处理也不行。

如果一定要采集这个网站的话,我想,就目前火车头来说,必须通过二次采集才能完成。

第一次,采集到二级列表,第二次,直接将二级列表作为0级列表,采集内容。


当然,有一种更为变态的方法,也可以一次搞定。
那就是0级深度直接采集页面  http://www.crsky.com/soft/(*).html    *=0-最大值   不过这样似乎太BT了


提的建议是:

建议改善对在0级列表下采集到的1级列表的处理的灵活性。

现在是0级列表下采到的1级列表是什么,就是什么,不能经过任何处理。
改进后可以对1级列表进行重新编辑分配   如 http://www.crsky.com/list/s_(*)_1.html  可以扩展为 http://www.crsky.com/list/s_(*)_(*2).html  *2=1-某个值  

对1级列表可以进行编辑  如   http://www.sohu.com/news/111111111.html  可以编辑成  http://www.sohu.com/news/111111111/(*).html  *=1-某个值  这个值可以在相关页面取得。

建议增加3-N级列表的深度采集。
发表于 2007-12-16 15:53:55 | 显示全部楼层
支持下
头像被屏蔽
发表于 2009-7-6 14:59:43 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2016-2-9 09:07:22 | 显示全部楼层
和你们一块学习。。。
发表于 2016-2-9 22:14:25 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 19:12

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表