sunway888 发表于 2006-11-3 04:58:37

慧聪页面的采集网址设置问题?

3.0版比2.0的要好用多了,可能是不太熟悉的原故,碰到下列情况时,不知该如何处理?这里要采集企业库的资料

例如:http://www.search.hc360.com/cgi-bin/ls?a=&b=&c=企业库&d=0&f=&g=&h=&i=&j=1&k=0&l=&m=&n=&o=&p=&r=&s=&t=&v=4&w=%BF%AA%B9%D8%B5%E7%D4%B4&z=中国:广东省&B=&D=&E=&P=&q=0&u=&e=25

1、这种分页是不规则的,如第1,2,3,4,5页对应网址中参数是1,25,49,73,97虽然间隔是24,但并不是24的倍数,所以不能“批量/多页”添加,只有用文本导入的方式完成,有点痛苦:L

2、列表页中的要采集网址是二级域名的形式,设置了好久都不能得到想要的二级页面(以前用1.1时可以定义标签的方式采到的),3.0中该如何设置?

哪位同仁,有空请指点一下:handshake

cunzhe 发表于 2006-11-6 18:37:23

换个思路吧……

先把企业库整个搞下来,然后再自己筛选出广东省的来:lol

dd0303 发表于 2007-6-10 23:08:33

第一个问题,其实用一下office工具,解决起来也不是很难。
不过第二个问题我也还没有处理好,不知道楼主处理得如何了?

gfangwu 发表于 2008-5-12 07:36:55

这个问题我也碰到。没办法呀
页: [1]
查看完整版本: 慧聪页面的采集网址设置问题?