求助高手:人才网采集多个不同多页的问题,困惑ing!
本帖最后由 昔日轨迹 于 2012-3-20 00:40 编辑研究了下,貌似火车头采集多页功能只能采集与当前页(默认页)有关联的多页网址。
例如:
获取http://product.it168.com/detail/doc/395075/index.shtml这样一个产品页里面的所有对应的信息,用一条规则搞定,则需要定义比如
报价多页:http://product.it168.com/detail/doc/395075/price.shtml,
参数多页:http://product.it168.com/detail/doc/395075/detail.shtml,
图片多页:http://product.it168.com/detail/doc/395075/pic.shtml等等。
V7的无限级多页规则可以在多页里面继续设置多页或桥页采集下级内容,比如该例中的图片多页:http://product.it168.com/detail/doc/395075/pic.shtml,里面还分为:外观图片,细节图片,配件图片,要获取到配件图片的所有内容则需要继续定义一个基于图片多页的二级深度的配件图片多页:http://product.it168.com/detail/doc/395075/25/1/pic.shtml。在该多页中定义标签采集到您所需要的信息。
但是,当默认页中有多个多页网址,且多页网址与默认页并无关联,彼此也无关联时,这种情况就不好设置规则了哦?!
eg. 其实很多的人才网,招聘列表有很多家公司,我们从中采集到一家公司信息页(当前页?)网址后:companydetails?Cid=888888,它里面还包含有该公司的多个职位信息页,对应网址:
jobdetails?JobID=124945/
jobdetails?JobID=1345/
jobdetails?JobID=843451/
jobdetails?JobID=1442445/........
显然这些jobdetails网址ID与默认页毫无关联,彼此间也无关联。
若想同时采集公司信息页面内容和它对应的多个职位信息页内容,该怎么办?该怎么办?怎么办啊?
或许是偶太菜了不会弄,测试n次了,只能采集到第一个职位信息网址!求高手和管理员赐教、帮忙! 遍搜全坛,终于得到答案了,那就是:压根没这功能!有木有?{:soso_e154:} V7版不是有多页同时采集吗? anine 发表于 2012-3-20 09:58 static/image/common/back.gif
V7版不是有多页同时采集吗?
貌似要求多页的URL必须与默认页相关or匹配and so so... 联系QQ:http://wpa.qq.com/pa?p=2:972130397:47
页:
[1]