killer110 发表于 2010-3-13 19:26:54

火车头高手能否解出这个题?网页数据采集利器能否采这样的?

本帖最后由 killer110 于 2010-3-15 13:29 编辑

采集的一个网站(或者论坛)有1级栏目50个,每个下面有2级栏目50个。共2500个,(或者论坛,一级板块50个,每个大板块有50个小版块,共2500个版块)。不需要建2500个任务。请写出只需一个任务就能采完整站的办法。
举个例子:就是只写一个规则就能把火车头整个论坛的所有板块的所有帖子全部采集了{:4_180:}
常规方法:
我们可以选择采集深度为2。
1,手动添加起始地址递增把一级栏目地址全搞定。
2,然后在文章列表页规则处,可以把所有的二级栏目地址弄出出来。
3,同上,可以弄出文章内容页面的地址。
4,内容页面写好规则,开始采集。

现在问题是:
1,二级栏目有分页,在第二步不可能把所有页面地址弄到。
2,内容页有分页,不可能在第三步靠采网址规则处写的规则把内容页全弄到。
3,最严重的问题:2级页面地址是相对地址,内容页面地址也是相对地址。例如是:/1234.html 而不是http://www.abc.com/1234.html

请写出你的方法步骤

另外,强烈建议火车头2010增强列表页的规则,不仅在列表深度为0的地方能用正则,在深度为1和2的部分也能用正则,并增加对相对网址的国定前缀功能。

mdytds 发表于 2010-3-14 12:17:47

这个我可以解决
请联系QQ:47833697
规则模块定制,数据采集发布

沦陷今生 发表于 2010-3-14 13:36:20

完全可以解决,编写一个 接口来辅助处理即可。

killer110 发表于 2010-3-15 13:14:50

回复 3# 沦陷今生


    编写一个接口是指的标准版本的外部php借口吗?

killer110 发表于 2010-3-15 13:31:43

回复 2# mdytds

qq怎么不加我?要多少钱?怎么实现?大体说下思路。禁止分步采集

沦陷今生 发表于 2010-3-15 15:23:21

楼主可以联系QQ:839461016
可以编写辅助接口
页: [1]
查看完整版本: 火车头高手能否解出这个题?网页数据采集利器能否采这样的?