火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2092|回复: 4

求助高手:人才网采集多个不同多页的问题,困惑ing!

[复制链接]
发表于 2012-3-20 00:20:30 | 显示全部楼层 |阅读模式
本帖最后由 昔日轨迹 于 2012-3-20 00:40 编辑

研究了下,貌似火车头采集多页功能只能采集与当前页(默认页)有关联的多页网址。
例如:
获取http://product.it168.com/detail/doc/395075/index.shtml这样一个产品页里面的所有对应的信息,用一条规则搞定,则需要定义比如
报价多页:http://product.it168.com/detail/doc/395075/price.shtml,
参数多页:http://product.it168.com/detail/doc/395075/detail.shtml,
图片多页:http://product.it168.com/detail/doc/395075/pic.shtml等等。
V7的无限级多页规则可以在多页里面继续设置多页或桥页采集下级内容,比如该例中的图片多页:http://product.it168.com/detail/doc/395075/pic.shtml,里面还分为:外观图片,细节图片,配件图片,要获取到配件图片的所有内容则需要继续定义一个基于图片多页的二级深度的配件图片多页:http://product.it168.com/detail/doc/395075/25/1/pic.shtml。在该多页中定义标签采集到您所需要的信息。

但是,当默认页中有多个多页网址,且多页网址与默认页并无关联,彼此也无关联时,这种情况就不好设置规则了哦?!

eg. 其实很多的人才网,招聘列表有很多家公司,我们从中采集到一家公司信息页(当前页?)网址后:companydetails?Cid=888888,它里面还包含有该公司的多个职位信息页,对应网址:
jobdetails?JobID=124945/
jobdetails?JobID=1345/
jobdetails?JobID=843451/
jobdetails?JobID=1442445/........
显然这些jobdetails网址ID与默认页毫无关联,彼此间也无关联。

若想同时采集公司信息页面内容和它对应的多个职位信息页内容,该怎么办?该怎么办?怎么办啊?
或许是偶太菜了不会弄,测试n次了,只能采集到第一个职位信息网址!求高手和管理员赐教、帮忙!
 楼主| 发表于 2012-3-20 08:54:27 | 显示全部楼层
遍搜全坛,终于得到答案了,那就是:压根没这功能!有木有?{:soso_e154:}
发表于 2012-3-20 09:58:06 | 显示全部楼层
V7版不是有多页同时采集吗?
 楼主| 发表于 2012-3-20 10:27:55 | 显示全部楼层
anine 发表于 2012-3-20 09:58
V7版不是有多页同时采集吗?

貌似要求多页的URL必须与默认页相关or匹配and so so...
发表于 2012-4-2 23:27:21 | 显示全部楼层
联系QQ:
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-25 20:36

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表