cj009
发表于 2011-7-18 15:47:35
求教个内容页面里部分内容在其他页面中,但是这个页面后面跟个Math随即数做参数,这该如呢办呢?小菜鸟请高手指教。
<script type="text/javascript">
jQuery.noConflict();
jQuery(document).ready(function() {
var url = "/members/ashx/GetCorpLinkInfo.ashx?id=569851&rnd=" + Math.random(); jQuery.getJSON(url, function(data) {
if (parseInt(data.hidelink) == 1) {
jQuery("#divLinkInfo").hide();
jQuery("#hideLinkTip").show();
}
cj009
发表于 2011-7-19 09:46:20
http://www.hbsc.cn/members/zw_120465.html
联系方式咋采求高手指教下!
zhouchanglin
发表于 2011-7-19 13:01:21
回复 184# cj009
登陆后,联系方式就可以看到了,火车头有登陆采集的 一些教程,你搜下就明白了
zhouchanglin
发表于 2011-7-19 13:28:22
本帖最后由 zhouchanglin 于 2011-7-19 13:29 编辑
回复 182# hctsjw
应该是相对地址识别的问题,你采用的是自动识别吧
它地址是<h4><a href="140566/891345150307.shtml" 相对于当前目录http://it.tom.com/list/159202_auto-6181_1/,得到的地址应该是http://it.tom.com/list/159202_auto-6181_1/140566/891345150307.shtml,不知道值么回事,源码里显示的却是http://it.tom.com/140566/891345150307.shtml
采集方法:
自定义网址:
脚本:<h4><a href="[参数]"实际连接:http://it.tom.com/[参数1]相对地址与平常不同的原因:源码里看到了<base target="_blank" href="http://it.tom.com/" />,百度后知道它的作用是:规定页面中所有相对链接的基准 URL。,所以会是这样的连接
zhouchanglin
发表于 2011-7-19 14:28:39
回复 176# zwxuan
点击页码可以知道触发SearchSubmit(3)<a href="javascript:SearchSubmit(3);" class="p_num">3</a>SearchSubmit(page):function SearchSubmit(page){document.searchform.page.value=page;document.searchform.submit();}知道是接收页码,设置为page值,然后提交searchform表单
searchform表单:<form name=searchform method=post action=chushoulist.html onsubmit=SearchSubmit(document.searchform.pageno.value)><input type=hidden name=page>略去部分代码。。。。。。。。。。。<input type=button class="p_input" value=go onclick=SearchSubmit(document.searchform.pageno.value)><input class="p_input" type="text" name="pageno">页</a></div><input type=hidden name=qy value="">
<input type=hidden name=dz value="">
<input type=hidden name=hx value="">
<input type=hidden name=mj1 value="">
<input type=hidden name=mj2 value="">
<input type=hidden name=jg1 value="">
<input type=hidden name=jg2 value="">
<input type=hidden name=cb value="">
<input type=hidden name=flag value="">
<input type=hidden name=djrq value="">
<input type=hidden name=zjid value="">
<input type=hidden name=jmid value="">
<input type=hidden name=jznd value="">
<input type=hidden name=zxnd value="">
<input type=hidden name=lc1 value="">
<input type=hidden name=lc2 value="">
<input type=hidden name=lc value="">
<input type=hidden name=lcwz value="">
<input type=hidden name=fwss value="">
<input type=hidden name=hj value="">
<input type=hidden name=cx value="">
</form>从表单知道提交地址http://house.qingdaonews.com/ershou/chushoulist.html,post数据:把表单各个必要字段&连接,post给这个地址,至于一些其他的字段,是对应那个搜索表单AN的,当搜索后,这些字段会被赋予特定的值,根据用户的查询条件设置的,所以不同的查询可以修改相应字段,而page就是代表页码的字段
规则:
zhouchanglin
发表于 2011-7-19 14:31:22
回复 183# cj009
多页获取那个可以获得想要信息的页面,然后采集多页就可以了,随机数应该没有什么影响
cj009
发表于 2011-7-21 11:06:33
回复 188# zhouchanglin
大侠请帮忙给看看吧。随即数有关系的。
http://www.hbsc.cn/members/ashx/GetCorpLinkInfo.ashx?id=912605&rnd=0.20451843188013052
没有rnd= 不行滴:-(
纵揽
发表于 2011-7-28 17:43:36
http://www.cde.org.cn/schedule/cata.do?method=list里边的 在审品种目录浏览\受理品种目录浏览都要采集能采集吗? 我用他的分页地址试了试,当前所在第几页变了,但是里边的内容一直没变
zhouchanglin
发表于 2011-8-4 17:01:01
回复 190# 纵揽
post数据:statenow=1&year=2011&drugtype=&applytype=&acceptid=&drugname=¤tPageNumber=9&pageMaxNumber=20&max=200&pageroffset=160&pagenum=页码部分无法设置
currentPageNumber=9 --------------页码
pageroffset=160---------------页码*20-20,无法统一,做不到
除非用php模拟post,生成分页页面,再导入火车头,另外没有内容页,所以还是循环麻烦的很
到不路一页一页的复制
cj009
发表于 2011-8-6 16:44:01
求老大教下:58上的求职简历,联系方式,获取不到源码,多页采集做好了,可就是获取不到电话。好像是多页没有cookie