火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
楼主: zhouchanglin

js post网站专区

[复制链接]
发表于 2011-5-3 23:58:08 | 显示全部楼层

本帖最后由 爱淘宝 于 2011-5-5 20:22 编辑

我已经会做了,谢谢![/quote]
发表于 2011-5-5 21:46:19 | 显示全部楼层
http://www.jse.gov.cn/col/col1362/index.html

帮忙采集下,非常感谢·
 楼主| 发表于 2011-5-7 14:53:57 | 显示全部楼层
回复 134# zhangxiang

这种网站我也接触guo2ge了,用的js基本方法都是一样的

可以看这个帖子http://bbs.locoy.com/viewthread. ... mp;extra=#pid383751,有我的分析

下面是你的这个网站获取数据的地址过程:
你的网站的主要部分:可以对比上面的那个网站的数据,都是差不多的
  1. $('#3891').jpage({themeName:'default',showMode:'normal',totalRecord:88,openCookies:false,dataBefore:'<table width="100%" border="0" cellspacing="0" cellpadding="0"><tr><td height="15"></td></tr></table>',dataStore:InitData3891,dataAfter:'',groupSize:1,proxyUrl:'/module/jslib/jquery/jpage/dataproxy.jsp',perPage:15,barPosition:'bottom',ajaxParam:{appid:'1',webid:1,path:'/',columnid:1362,sourceContentType:1,unitid:'3891',webname:'江苏教育信息网',permissiontype:0}});
复制代码
你这个网站获取全部数据的地址:
  1. http://www.jse.gov.cn//module/jslib/jquery/jpage/dataproxy.jsp?startrecord=1&endrecord=88&perpage=88&appid=1&webid=1&path=/&columnid=1362&sourceContentType=1&unitid=3891&webname=江苏教育信息网&permissiontype=0
复制代码
  1. startrecord=1&endrecord=88&perpage=88
复制代码
是可以设置网站返回数据量的perpage=88:单页88条;startrecord=1:记录开始位置第一条;endrecord=88:记录结束位置第88条
因为通过返回的数据
  1. totalRecord=88.0;totalPage = 6;
复制代码
可以知道总数是88条,这样就可以用一页返回所有记录,网站默认是每页15条,这样列表不好生成
发表于 2011-5-7 16:26:04 | 显示全部楼层
本帖最后由 zhangxiang 于 2011-5-7 16:29 编辑

明白了,因为post的值不变,而提交网页是变化的,而且是两个变量,所以把网址改造成get的形式,用手工生成采集网址,然后采集。是这样吧?现在我在参加站长大会…看到你的回复,很高兴,谢谢…
 楼主| 发表于 2011-5-7 17:42:05 | 显示全部楼层
回复 136# zhangxiang


   
发表于 2011-5-10 09:55:34 | 显示全部楼层
楼主真是个热心人,我慢慢的从头看到尾真是佩服楼主啊,耐何没有楼主这高深的知道,郁闷之极
楼主能否帮忙看一下http://chengkao.eol.cn/zheng_ce_ ... 110426_606564.shtml
这个内容页
他的下一页调用是
<script src="/js/page_nav.js" language="JavaScript" ignoreapd='false'>
找遍论坛也没有找到解决方案,肯请楼主帮个忙
发表于 2011-5-14 15:39:02 | 显示全部楼层
http://www.0371-it.com/     右上角有个登陆 点登陆 用户名 tongda 密码 tongda  进入后在左边点搜索引擎  会出现很多公司列表
采集公司名称  地址 联系人 手机号码 电话 QQ EMAIL
__EVENTTARGET=LinkButton3&__EVENTARGUMENT=&__LASTFOCUS=&__VIEWSTATE=[POST随机值1]&__EVENTVALIDATION=[POST随机值2]=&ddlFenYe=[分页]
这是PSOT 数据  但还是采集不到
发表于 2011-5-14 15:39:42 | 显示全部楼层
zhangxiang  帮帮忙了
 楼主| 发表于 2011-5-14 21:22:12 | 显示全部楼层
本帖最后由 zhouchanglin 于 2011-5-14 21:23 编辑

回复 140# huxiaoming168
因为所有的东西只能在列表获取,所以post有些不容易,仿佛对列表post是没有意义的,其实设置正确的post数据每次获取的网页源码是会不同的,但由于列表的主要目的是获取内容页,而这个只能在列表加标签,由于你想获得标签多达4-5个,这样就是自定义获取也是不容易设置的,通配符会非常多,

另外一点:要使用cookie,需要登录

设置好自定义标签应该可以获取到的

另外的解决途径是:用PHP的curl模拟发送post数据给http://www.0371-it.com/web/SouSuo.aspx,本地生成每个分页的HTML文件,把这些HTML作为采集目标网址,作为内容页用火车头采集,不过还是要设置循环,这个正则设置好了,就可以达到目的
模拟PHP文件:需要开启curl扩展,有PHP运行环境

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

 楼主| 发表于 2011-5-15 11:22:54 | 显示全部楼层
回复 138# jskjsk


    你好,这个做插件可以采集,可以参考http://bbs.locoy.com/spider-55815-1-1.html,另外要标准版才能使用内部的php插件,其他办法是写php脚本,这样免费版也可以 了,调用目标地址,生成分页连接代码,返回源码,火车头采集

你的这个网站,有人问过,这个帖子http://bbs.locoy.com/viewthread. ... mp;page=1#pid392476 我做过这个站
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-10-7 00:18

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表