关于采集电子商务站点的思路

hxdyh · 发表于 2011-4-10 04:04:28

以前都是自己靠自己写的程序来采集，比如采集http://www.handbags-replicas.org/这样的网站，通常思路是，先把商品分类入库，通过一级分类，获得二级分类(多级依然如此),分类入库，把分类的数组保存起来，为接下来采集商品内页页面可以找到产品对应的分类，http://www.handbags-replicas.org/prada-handbags-c-46.html，像这样的页面我称为产品列表页面，我通常都是遍历到产品列表页面，通过循环分页的地址，获得一大批的产品详细页面地址，然后最后通过这些地址再处理出产品信息，最后入库。但是用火车头采集的话，就是不方便把分类存为数组，只能导出链接到文本文档里面，大家采集这样的网站都是什么思路呢？是不是都是获得最后的产品链接地址(ps：产品链接地址比如http://www.handbags-replicas.org/2009-prada-new-handbagblackwhite-tumble5647-p-3277.html)，然后再通过这些地址去处理出产品信息吗？还有，得到一批产品链接地址，如何批量采集呢？对火车头还不是很熟悉。

帐号		自动登录	找回密码
密码			加入会员