risun 发表于 2009-8-20 17:01:08

阿里信息采集-条件控制的循环及分页采集,自力更生曲线救国写出来了。

本帖最后由 risun 于 2009-8-22 12:26 编辑

我在做一个采集,页面如下:
http://search.china.alibaba.com/selloffer/咖啡豆、可可/1.html?cat_field=display_cat_ids

我要把页中的有标注《推广》的信息收集起来,不是推广的就不要,还要换页,把每个有这个推广的信息采集下来,弄了两天了,只搞出个半成品,一直不能解决这个条件控制的问题,我要采集的信息是有:发布者公司名、贸易通号、这条信息的序列号。哪个高手给指点迷经呀。

都市乞丐 发表于 2009-8-20 17:20:29

给标签添加   必须包含文字试试看   试试看,

risun 发表于 2009-8-20 17:22:39

自动分页设置怎么写呀,变通解决了条件循环,现在又碰到了新问题

本帖最后由 risun 于 2009-8-22 12:12 编辑

自动分页设置怎么写呀,变通解决了条件循环,现在又碰到了新问题
自动分页设置怎么写呀,才好不容易把条件循环解决,没办法用了曲线救国的方法,分页下一页一直无法提取,测试页为:


http://search.china.alibaba.com/search/offer_search.htm?keywords=咖啡豆、可可

分页源码部份为:(下一页)

                                                                                                                                                      </b>...<b>                                                                                                                        <a   href="http://search.china.alibaba.com/selloffer/%E5%92%96%E5%95%A1%E8%B1%86%E3%80%81%E5%8F%AF%E5%8F%AF/2.html?cat_field=display_cat_ids"class="unline nextpage">下一页</a>


哪位高手能帮俺看看怎么设置,能自动提取下3页的内容。这里先谢谢了。

risun 发表于 2009-8-22 10:59:36

终于自力更生,把要做的功能写出来了

本帖最后由 risun 于 2009-8-22 12:47 编辑

终于自力更生,把要做的功能写出来了,就是方法太笨了,规则写得不精简,导致运行比较慢,但没有高人帮忙,能自己写出来也不错了,下面挂上,有哪位高人有兴趣的话,可以看看哪里可以改得更精简些。

最笨首领 发表于 2009-11-7 03:15:43

花了一点时间,终于把阿里企业相关产品采集下来了,
http://www.cnz1.com/yp/company.php采了1万个企业的数据测试用,程序是phpcms2008自带的黄页程序

大家有需要我服务的地方可联系 QQ:171102457(注明:采集) 可定做规则,入库模块,ASP,PHP程序修改,数据采集等

注: 由于入库模块是本人自己写的,可自动进行 分类处理(自动创建分类),城市分类,字母分类等一系列的的操作

meiwenti 发表于 2009-11-14 14:49:24

打开不了啊啊 啊啊啊
页: [1]
查看完整版本: 阿里信息采集-条件控制的循环及分页采集,自力更生曲线救国写出来了。