火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3432|回复: 5

阿里信息采集-条件控制的循环及分页采集,自力更生曲线救国写出来了。

[复制链接]
发表于 2009-8-20 17:01:08 | 显示全部楼层 |阅读模式
本帖最后由 risun 于 2009-8-22 12:26 编辑

我在做一个采集,页面如下:
http://search.china.alibaba.com/selloffer/咖啡豆、可可/1.html?cat_field=display_cat_ids

我要把页中的有标注《推广》的信息收集起来,不是推广的就不要,还要换页,把每个有这个推广的信息采集下来,弄了两天了,只搞出个半成品,一直不能解决这个条件控制的问题,我要采集的信息是有:发布者公司名、贸易通号、这条信息的序列号。哪个高手给指点迷经呀。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2009-8-20 17:20:29 | 显示全部楼层
给标签添加   必须包含文字试试看   试试看,
 楼主| 发表于 2009-8-20 17:22:39 | 显示全部楼层

自动分页设置怎么写呀,变通解决了条件循环,现在又碰到了新问题

本帖最后由 risun 于 2009-8-22 12:12 编辑

自动分页设置怎么写呀,变通解决了条件循环,现在又碰到了新问题
自动分页设置怎么写呀,才好不容易把条件循环解决,没办法用了曲线救国的方法,分页下一页一直无法提取,测试页为:


http://search.china.alibaba.com/search/offer_search.htm?keywords=咖啡豆、可可

分页源码部份为:(下一页)

                                                                                                                                                        </b>...<b>                                                                                                                        <a   href="http://search.china.alibaba.com/selloffer/%E5%92%96%E5%95%A1%E8%B1%86%E3%80%81%E5%8F%AF%E5%8F%AF/2.html?cat_field=display_cat_ids"  class="unline nextpage">下一页</a>


哪位高手能帮俺看看怎么设置,能自动提取下3页的内容。这里先谢谢了。
 楼主| 发表于 2009-8-22 10:59:36 | 显示全部楼层

终于自力更生,把要做的功能写出来了

本帖最后由 risun 于 2009-8-22 12:47 编辑

终于自力更生,把要做的功能写出来了,就是方法太笨了,规则写得不精简,导致运行比较慢,但没有高人帮忙,能自己写出来也不错了,下面挂上,有哪位高人有兴趣的话,可以看看哪里可以改得更精简些。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2009-11-7 03:15:43 | 显示全部楼层
花了一点时间,终于把阿里企业相关产品采集下来了,
http://www.cnz1.com/yp/company.php  采了1万个企业的数据测试用,程序是phpcms2008自带的黄页程序

大家有需要我服务的地方可联系 QQ:171102457(注明:采集) 可定做规则,入库模块,ASP,PHP程序修改,数据采集等

注: 由于入库模块是本人自己写的,可自动进行 分类处理(自动创建分类),城市分类,字母分类等一系列的的操作
发表于 2009-11-14 14:49:24 | 显示全部楼层
打开不了啊  啊 啊啊啊
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 07:46

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表