想采集分类网站的信息,如何能够通过1个规则抓取所有分类信息?
目前分类网站如58,每个每份下面的展示页面或者说列表页面都不一样,有自己分类下独特的字段。这种如果要想采集多个分类下的信息,难道就需要1个规则一个规则的对应建立?
那样后期维护也非常麻烦,一个分类信息网站下面有好几百个具体的子分类。
这种情况到底有没有什么好的抓取办法,能够通过一种规则抓取到大部分的分类下的分类信息呢? 基本很难一般采集的都是大站的资料 这些大站都有专门维护 还有防采集的
有的站就连URL规律也经常变动的
火车头专门可能采集规则不变呢? 回复 2# 移信通
能被搜索引擎收录,应该就能被采集, 回复 3# zyj33
不同的搜索引擎是随机的 没有抓取规则
火车是按照规则开的啊
页:
[1]