planespace 发表于 2013-3-3 17:11:56

58列表页提取号码不行吗?

采集58面临的号码问题,这样操作应该怎么办呢?在http://hrb.58.com/fudao/d1/pn2/读取号码后,再进到内容页里读内容。
或者把目标页定位到内容页,再把列表页作为多页,读取号码。

但两种问题都面临着具体内容页和列表页对应对容的匹配问题,似乎用个可以在多级页面间传递的变量可以解决,求帮助。

planespace 发表于 2013-3-3 17:14:21

不知道说明白没有。
在列表页里有:
企业1号码
企业2号码
企业3号码
提取完企业1和号码后,进入这个对应的链接再采集内容。这是把列表页作为默认页操作的。

第二种就是进入到具体内容页,采完内容后,把列表页作为多页,根据企业名匹配对应的行,再采集号码。

planespace 发表于 2013-3-3 19:15:37

时间不好,没人理呢?

planespace 发表于 2013-3-4 08:19:40

求灵光一闪的大侠提示

303718 发表于 2013-3-4 08:36:08

用自定义链接

planespace 发表于 2013-3-4 09:58:42

本帖最后由 planespace 于 2013-3-4 10:24 编辑

大概明白了,我再测试一下,感谢列车员帮助。
测试一下后,发现没明白透彻|||
这个标签XXX不是哪都有的

我能够写明白获取这些地址的操作,我的意思是如何把列表页与默认页的匹配的内容组合:
列表页里有:
url1标题1电话1
url2标题2电话2
url3标题3电话3

我到了url1里取完内容,想把列表页的电话1一起采集和内容形成一条记录。

我测试的时候,把列表页作为多页处理,会匹配从url1到url3多条记录,所以我才想到把标题作为变量在默认页和多页间传递值。
这样就是采完默认页后,再回到列表页采集标题等于内容页标题的电话;或者是在列表页采完电话后,再到标题值相同的内容页采集内容。

kuhabe 发表于 2013-3-4 12:27:53

planespace 发表于 2013-3-4 09:58 static/image/common/back.gif
大概明白了,我再测试一下,感谢列车员帮助。
测试一下后,发现没明白透彻|||
这个标签XXX不是哪都有的


看这个教程
http://bbs.locoy.com/spider-108117-1-1.html
列表页提取字段标签值

planespace 发表于 2013-3-4 14:45:28

彻底明白了,正是我需要的,谢谢
页: [1]
查看完整版本: 58列表页提取号码不行吗?