我
本帖最后由 爱淘宝 于 2011-5-5 20:22 编辑我已经会做了,谢谢!ali68ls http://www.jse.gov.cn/col/col1362/index.html
帮忙采集下,非常感谢· 回复 134# zhangxiang
这种网站我也接触guo2ge了,用的js基本方法都是一样的
可以看这个帖子http://bbs.locoy.com/viewthread.php?tid=58756&page=1&extra=#pid383751,有我的分析
下面是你的这个网站获取数据的地址过程:
你的网站的主要部分:可以对比上面的那个网站的数据,都是差不多的$('#3891').jpage({themeName:'default',showMode:'normal',totalRecord:88,openCookies:false,dataBefore:'<table width="100%" border="0" cellspacing="0" cellpadding="0"><tr><td height="15"></td></tr></table>',dataStore:InitData3891,dataAfter:'',groupSize:1,proxyUrl:'/module/jslib/jquery/jpage/dataproxy.jsp',perPage:15,barPosition:'bottom',ajaxParam:{appid:'1',webid:1,path:'/',columnid:1362,sourceContentType:1,unitid:'3891',webname:'江苏教育信息网',permissiontype:0}});你这个网站获取全部数据的地址:http://www.jse.gov.cn//module/jslib/jquery/jpage/dataproxy.jsp?startrecord=1&endrecord=88&perpage=88&appid=1&webid=1&path=/&columnid=1362&sourceContentType=1&unitid=3891&webname=江苏教育信息网&permissiontype=0startrecord=1&endrecord=88&perpage=88是可以设置网站返回数据量的perpage=88:单页88条;startrecord=1:记录开始位置第一条;endrecord=88:记录结束位置第88条
因为通过返回的数据totalRecord=88.0;totalPage = 6;可以知道总数是88条,这样就可以用一页返回所有记录,网站默认是每页15条,这样列表不好生成 本帖最后由 zhangxiang 于 2011-5-7 16:29 编辑
明白了,因为post的值不变,而提交网页是变化的,而且是两个变量,所以把网址改造成get的形式,用手工生成采集网址,然后采集。是这样吧?现在我在参加站长大会…看到你的回复,很高兴,谢谢… 回复 136# zhangxiang
ali82ls 楼主真是个热心人,我慢慢的从头看到尾真是佩服楼主啊,耐何没有楼主这高深的知道,郁闷之极
楼主能否帮忙看一下http://chengkao.eol.cn/zheng_ce_bh_3760/20110426/t20110426_606564.shtml
这个内容页
他的下一页调用是
<script src="/js/page_nav.js" language="JavaScript" ignoreapd='false'>
找遍论坛也没有找到解决方案,肯请楼主帮个忙 http://www.0371-it.com/ 右上角有个登陆 点登陆 用户名 tongda 密码 tongda进入后在左边点搜索引擎会出现很多公司列表
采集公司名称地址 联系人 手机号码 电话 QQ EMAIL
__EVENTTARGET=LinkButton3&__EVENTARGUMENT=&__LASTFOCUS=&__VIEWSTATE=&__EVENTVALIDATION==&ddlFenYe=[分页]
这是PSOT 数据但还是采集不到 zhangxiang帮帮忙了 本帖最后由 zhouchanglin 于 2011-5-14 21:23 编辑
回复 140# huxiaoming168
因为所有的东西只能在列表获取,所以post有些不容易,仿佛对列表post是没有意义的,其实设置正确的post数据每次获取的网页源码是会不同的,但由于列表的主要目的是获取内容页,而这个只能在列表加标签,由于你想获得标签多达4-5个,这样就是自定义获取也是不容易设置的,通配符会非常多,
另外一点:要使用cookie,需要登录
设置好自定义标签应该可以获取到的
另外的解决途径是:用PHP的curl模拟发送post数据给http://www.0371-it.com/web/SouSuo.aspx,本地生成每个分页的HTML文件,把这些HTML作为采集目标网址,作为内容页用火车头采集,不过还是要设置循环,这个正则设置好了,就可以达到目的
模拟PHP文件:需要开启curl扩展,有PHP运行环境
回复 138# jskjsk
你好,这个做插件可以采集,可以参考http://bbs.locoy.com/spider-55815-1-1.html,另外要标准版才能使用内部的php插件,其他办法是写php脚本,这样免费版也可以 了,调用目标地址,生成分页连接代码,返回源码,火车头采集
你的这个网站,有人问过,这个帖子http://bbs.locoy.com/viewthread.php?tid=59544&rpid=392476&fav=yes&ordertype=0&page=1#pid392476 我做过这个站