火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5914|回复: 16

这个问题会不会拦住火车头前进???

[复制链接]
发表于 2007-11-29 11:57:58 | 显示全部楼层 |阅读模式
在采集的过程中我会经常遇到这种问题:

    有好多网站的列表页面,地址栏的网址是不会变的。这样的话就导致了火车头只能采集到一页的内容!!!

    请高手告诉我这个问题怎么解决???

    例如像这个网页:http://job.hainan.net/newjob/cgi-bin/person/personlist.asp
发表于 2007-11-29 12:40:43 | 显示全部楼层
没有多少问题可以拦住的.你上面的网页打不开.
发表于 2007-11-29 13:13:40 | 显示全部楼层
可能是js的吧,有难度
 楼主| 发表于 2007-11-29 22:01:48 | 显示全部楼层

希望管理员再次关注

 楼主| 发表于 2007-11-29 22:21:00 | 显示全部楼层

火车头管理员 希望您能帮助我解决这个问题!!!

火车头管理员  希望您能帮助我解决这个问题!!!
发表于 2007-11-29 22:26:28 | 显示全部楼层

回复 1楼 的帖子

这个地址很熟悉~

这样的地址其实有比较有难度的,这个页面是获取当前页面提交的参数然后输出内容页,和火车无关
如果可以从隐藏的表单中推算出参数值,模拟提交这些参数,其实是可以实现的!
发表于 2007-11-30 00:19:45 | 显示全部楼层
 楼主| 发表于 2007-11-30 12:48:22 | 显示全部楼层

7楼的能不能说清楚一点???

7楼的你的 stime=2007-11-29+22%3A33%3A23 这段代码是怎么得到的????

帮帮忙 我急呀!!!
发表于 2007-11-30 13:27:42 | 显示全部楼层
你也别急了.这个站的资料要完整抓下来不容易.
2007-11-29+22%3A33%3A23
解码出来就是 2007-11-29 22:33:23 的意思
这个网站是以数据发布时间作为搜索条件来决定每一页第一条记录的定位的.
你在网址后加?stime=2007-11-29+22%3A33%3A23
就是以 2007-11-29 22:33:23发布的这条记录作为第一条记录打开一页的意思.
用批量/网页
http://job.hainan.net/newjob/cgi ... p?stime=2007-11-29+(*)%3A00%3A01
设置0 到23 倒序和补零勾上.
这样设置也只能把11月29号的记录都抓出来.
呵.每天都要单独设置.
想想都觉得麻烦.还是别采算了.
发表于 2007-11-30 13:47:58 | 显示全部楼层
其实就是按每个小时一抓.也可能会漏记录,反正不是漏记录,就是有重复.重复点无所谓.火车头会过滤掉.
对自己耐心有信心就采吧.
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-19 03:20

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表