发新话题
打印

慧聪页面的采集网址设置问题?

慧聪页面的采集网址设置问题?

3.0版比2.0的要好用多了,可能是不太熟悉的原故,碰到下列情况时,不知该如何处理?这里要采集企业库的资料

例如:http://www.search.hc360.com/cgi-bin/ls?a=&b=&c=企业库&d=0&f=&g=&h=&i=&j=1&k=0&l=&m=&n=&o=&p=&r=&s=&t=&v=4&w=%BF%AA%B9%D8%B5%E7%D4%B4&z=中国:广东省&B=&D=&E=&P=&q=0&u=&e=25

1、这种分页是不规则的,如第1,2,3,4,5页对应网址中参数是1,25,49,73,97  虽然间隔是24,但并不是24的倍数,所以不能“批量/多页”添加,只有用文本导入的方式完成,有点痛苦:L

2、列表页中的要采集网址是二级域名的形式,设置了好久都不能得到想要的二级页面(以前用1.1时可以定义标签的方式采到的),3.0中该如何设置?

哪位同仁,有空请指点一下:handshake

TOP

换个思路吧……

先把企业库整个搞下来,然后再自己筛选出广东省的来

TOP

第一个问题,其实用一下office工具,解决起来也不是很难。
不过第二个问题我也还没有处理好,不知道楼主处理得如何了?

TOP

这个问题我也碰到。没办法呀

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.177560 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 09:49 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档