火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3511|回复: 3

慧聪页面的采集网址设置问题?

[复制链接]
发表于 2006-11-3 04:58:37 | 显示全部楼层 |阅读模式
3.0版比2.0的要好用多了,可能是不太熟悉的原故,碰到下列情况时,不知该如何处理?这里要采集企业库的资料

例如:http://www.search.hc360.com/cgi-bin/ls?a=&b=&c=企业库&d=0&f=&g=&h=&i=&j=1&k=0&l=&m=&n=&o=&p=&r=&s=&t=&v=4&w=%BF%AA%B9%D8%B5%E7%D4%B4&z=中国:广东省&B=&D=&E=&P=&q=0&u=&e=25

1、这种分页是不规则的,如第1,2,3,4,5页对应网址中参数是1,25,49,73,97  虽然间隔是24,但并不是24的倍数,所以不能“批量/多页”添加,只有用文本导入的方式完成,有点痛苦:L

2、列表页中的要采集网址是二级域名的形式,设置了好久都不能得到想要的二级页面(以前用1.1时可以定义标签的方式采到的),3.0中该如何设置?

哪位同仁,有空请指点一下:handshake
发表于 2006-11-6 18:37:23 | 显示全部楼层

换个思路吧……

先把企业库整个搞下来,然后再自己筛选出广东省的来
发表于 2007-6-10 23:08:33 | 显示全部楼层
第一个问题,其实用一下office工具,解决起来也不是很难。
不过第二个问题我也还没有处理好,不知道楼主处理得如何了?
发表于 2008-5-12 07:36:55 | 显示全部楼层
这个问题我也碰到。没办法呀
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-22 12:57

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表