阿里信息采集-条件控制的循环及分页采集,自力更生曲线救国写出来了。
本帖最后由 risun 于 2009-8-22 12:26 编辑我在做一个采集,页面如下:
http://search.china.alibaba.com/selloffer/咖啡豆、可可/1.html?cat_field=display_cat_ids
我要把页中的有标注《推广》的信息收集起来,不是推广的就不要,还要换页,把每个有这个推广的信息采集下来,弄了两天了,只搞出个半成品,一直不能解决这个条件控制的问题,我要采集的信息是有:发布者公司名、贸易通号、这条信息的序列号。哪个高手给指点迷经呀。 给标签添加 必须包含文字试试看 试试看,
自动分页设置怎么写呀,变通解决了条件循环,现在又碰到了新问题
本帖最后由 risun 于 2009-8-22 12:12 编辑自动分页设置怎么写呀,变通解决了条件循环,现在又碰到了新问题
自动分页设置怎么写呀,才好不容易把条件循环解决,没办法用了曲线救国的方法,分页下一页一直无法提取,测试页为:
http://search.china.alibaba.com/search/offer_search.htm?keywords=咖啡豆、可可
分页源码部份为:(下一页)
</b>...<b> <a href="http://search.china.alibaba.com/selloffer/%E5%92%96%E5%95%A1%E8%B1%86%E3%80%81%E5%8F%AF%E5%8F%AF/2.html?cat_field=display_cat_ids"class="unline nextpage">下一页</a>
哪位高手能帮俺看看怎么设置,能自动提取下3页的内容。这里先谢谢了。
终于自力更生,把要做的功能写出来了
本帖最后由 risun 于 2009-8-22 12:47 编辑终于自力更生,把要做的功能写出来了,就是方法太笨了,规则写得不精简,导致运行比较慢,但没有高人帮忙,能自己写出来也不错了,下面挂上,有哪位高人有兴趣的话,可以看看哪里可以改得更精简些。 花了一点时间,终于把阿里企业相关产品采集下来了,
http://www.cnz1.com/yp/company.php采了1万个企业的数据测试用,程序是phpcms2008自带的黄页程序
大家有需要我服务的地方可联系 QQ:171102457(注明:采集) 可定做规则,入库模块,ASP,PHP程序修改,数据采集等
注: 由于入库模块是本人自己写的,可自动进行 分类处理(自动创建分类),城市分类,字母分类等一系列的的操作 打开不了啊啊 啊啊啊
页:
[1]