cj009 发表于 2011-7-18 15:47:35

求教个内容页面里部分内容在其他页面中,但是这个页面后面跟个Math随即数做参数,这该如呢办呢?小菜鸟请高手指教。

<script type="text/javascript">
    jQuery.noConflict();
    jQuery(document).ready(function() {
    var url = "/members/ashx/GetCorpLinkInfo.ashx?id=569851&rnd=" + Math.random();      jQuery.getJSON(url, function(data) {
      if (parseInt(data.hidelink) == 1) {
          jQuery("#divLinkInfo").hide();
          jQuery("#hideLinkTip").show();
      }

cj009 发表于 2011-7-19 09:46:20

http://www.hbsc.cn/members/zw_120465.html
联系方式咋采求高手指教下!

zhouchanglin 发表于 2011-7-19 13:01:21

回复 184# cj009


    登陆后,联系方式就可以看到了,火车头有登陆采集的 一些教程,你搜下就明白了

zhouchanglin 发表于 2011-7-19 13:28:22

本帖最后由 zhouchanglin 于 2011-7-19 13:29 编辑

回复 182# hctsjw


    应该是相对地址识别的问题,你采用的是自动识别吧

它地址是<h4><a href="140566/891345150307.shtml" 相对于当前目录http://it.tom.com/list/159202_auto-6181_1/,得到的地址应该是http://it.tom.com/list/159202_auto-6181_1/140566/891345150307.shtml,不知道值么回事,源码里显示的却是http://it.tom.com/140566/891345150307.shtml

采集方法:
自定义网址:
脚本:<h4><a href="[参数]"实际连接:http://it.tom.com/[参数1]相对地址与平常不同的原因:源码里看到了<base target="_blank" href="http://it.tom.com/" />,百度后知道它的作用是:规定页面中所有相对链接的基准 URL。,所以会是这样的连接

zhouchanglin 发表于 2011-7-19 14:28:39

回复 176# zwxuan

点击页码可以知道触发SearchSubmit(3)<a href="javascript:SearchSubmit(3);" class="p_num">3</a>SearchSubmit(page):function SearchSubmit(page){document.searchform.page.value=page;document.searchform.submit();}知道是接收页码,设置为page值,然后提交searchform表单

searchform表单:<form name=searchform method=post action=chushoulist.html onsubmit=SearchSubmit(document.searchform.pageno.value)><input type=hidden name=page>略去部分代码。。。。。。。。。。。<input type=button class="p_input" value=go onclick=SearchSubmit(document.searchform.pageno.value)><input class="p_input" type="text" name="pageno">页</a></div><input type=hidden name=qy value="">
<input type=hidden name=dz value="">
<input type=hidden name=hx value="">
<input type=hidden name=mj1 value="">
<input type=hidden name=mj2 value="">
<input type=hidden name=jg1 value="">
<input type=hidden name=jg2 value="">
<input type=hidden name=cb value="">
<input type=hidden name=flag value="">
<input type=hidden name=djrq value="">
<input type=hidden name=zjid value="">
<input type=hidden name=jmid value="">
<input type=hidden name=jznd value="">
<input type=hidden name=zxnd value="">
<input type=hidden name=lc1 value="">
<input type=hidden name=lc2 value="">
<input type=hidden name=lc value="">
<input type=hidden name=lcwz value="">
<input type=hidden name=fwss value="">
<input type=hidden name=hj value="">
<input type=hidden name=cx value="">
</form>从表单知道提交地址http://house.qingdaonews.com/ershou/chushoulist.html,post数据:把表单各个必要字段&连接,post给这个地址,至于一些其他的字段,是对应那个搜索表单AN的,当搜索后,这些字段会被赋予特定的值,根据用户的查询条件设置的,所以不同的查询可以修改相应字段,而page就是代表页码的字段

规则:

zhouchanglin 发表于 2011-7-19 14:31:22

回复 183# cj009


    多页获取那个可以获得想要信息的页面,然后采集多页就可以了,随机数应该没有什么影响

cj009 发表于 2011-7-21 11:06:33

回复 188# zhouchanglin

大侠请帮忙给看看吧。随即数有关系的。
http://www.hbsc.cn/members/ashx/GetCorpLinkInfo.ashx?id=912605&rnd=0.20451843188013052
没有rnd=   不行滴:-(

纵揽 发表于 2011-7-28 17:43:36

http://www.cde.org.cn/schedule/cata.do?method=list里边的 在审品种目录浏览\受理品种目录浏览都要采集能采集吗? 我用他的分页地址试了试,当前所在第几页变了,但是里边的内容一直没变

zhouchanglin 发表于 2011-8-4 17:01:01

回复 190# 纵揽


   post数据:statenow=1&year=2011&drugtype=&applytype=&acceptid=&drugname=&currentPageNumber=9&pageMaxNumber=20&max=200&pageroffset=160&pagenum=页码部分无法设置
currentPageNumber=9 --------------页码
pageroffset=160---------------页码*20-20,无法统一,做不到

除非用php模拟post,生成分页页面,再导入火车头,另外没有内容页,所以还是循环麻烦的很

到不路一页一页的复制

cj009 发表于 2011-8-6 16:44:01

求老大教下:58上的求职简历,联系方式,获取不到源码,多页采集做好了,可就是获取不到电话。好像是多页没有cookie
页: 9 10 11 12 13 14 15 16 17 18 [19] 20 21
查看完整版本: js post网站专区