慧聪页面的采集网址设置问题?
3.0版比2.0的要好用多了,可能是不太熟悉的原故,碰到下列情况时,不知该如何处理?这里要采集企业库的资料例如:http://www.search.hc360.com/cgi-bin/ls?a=&b=&c=企业库&d=0&f=&g=&h=&i=&j=1&k=0&l=&m=&n=&o=&p=&r=&s=&t=&v=4&w=%BF%AA%B9%D8%B5%E7%D4%B4&z=中国:广东省&B=&D=&E=&P=&q=0&u=&e=25
1、这种分页是不规则的,如第1,2,3,4,5页对应网址中参数是1,25,49,73,97虽然间隔是24,但并不是24的倍数,所以不能“批量/多页”添加,只有用文本导入的方式完成,有点痛苦:L
2、列表页中的要采集网址是二级域名的形式,设置了好久都不能得到想要的二级页面(以前用1.1时可以定义标签的方式采到的),3.0中该如何设置?
哪位同仁,有空请指点一下:handshake
换个思路吧……
先把企业库整个搞下来,然后再自己筛选出广东省的来:lol 第一个问题,其实用一下office工具,解决起来也不是很难。不过第二个问题我也还没有处理好,不知道楼主处理得如何了? 这个问题我也碰到。没办法呀
页:
[1]