这个问题会不会拦住火车头前进???
在采集的过程中我会经常遇到这种问题:有好多网站的列表页面,地址栏的网址是不会变的。这样的话就导致了火车头只能采集到一页的内容!!!
请高手告诉我这个问题怎么解决???
例如像这个网页:http://job.hainan.net/newjob/cgi-bin/person/personlist.asp 没有多少问题可以拦住的.你上面的网页打不开. 可能是js的吧,有难度
希望管理员再次关注
不只是上面那个网站:http://job.hainan.net/newjob/cgi-bin/person/personlist.asp还有很多:前程无忧网:http://search.51job.com/jobsearch/keyword_search.php
火车头管理员 希望您能帮助我解决这个问题!!!
火车头管理员希望您能帮助我解决这个问题!!!回复 1楼 的帖子
这个地址很熟悉~这样的地址其实有比较有难度的,这个页面是获取当前页面提交的参数然后输出内容页,和火车无关
如果可以从隐藏的表单中推算出参数值,模拟提交这些参数,其实是可以实现的! http://job.hainan.net/newjob/cgi-bin/person/personlist.asp?stime=2007-11-29+22%3A33%3A23
[ 本帖最后由 fal 于 2007-11-30 00:33 编辑 ]
7楼的能不能说清楚一点???
7楼的你的 stime=2007-11-29+22%3A33%3A23 这段代码是怎么得到的????帮帮忙 我急呀!!! 你也别急了.这个站的资料要完整抓下来不容易.
2007-11-29+22%3A33%3A23
解码出来就是 2007-11-29 22:33:23 的意思
这个网站是以数据发布时间作为搜索条件来决定每一页第一条记录的定位的.
你在网址后加?stime=2007-11-29+22%3A33%3A23
就是以 2007-11-29 22:33:23发布的这条记录作为第一条记录打开一页的意思.
用批量/网页
http://job.hainan.net/newjob/cgi-bin/person/personlist.asp?stime=2007-11-29+(*)%3A00%3A01
设置0 到23 倒序和补零勾上.
这样设置也只能把11月29号的记录都抓出来.
呵.每天都要单独设置.
想想都觉得麻烦.还是别采算了. 其实就是按每个小时一抓.也可能会漏记录,反正不是漏记录,就是有重复.重复点无所谓.火车头会过滤掉.
对自己耐心有信心就采吧.
页:
[1]
2