爱淘宝 发表于 2011-5-3 23:58:08

本帖最后由 爱淘宝 于 2011-5-5 20:22 编辑

我已经会做了,谢谢!ali68ls

zhangxiang 发表于 2011-5-5 21:46:19

http://www.jse.gov.cn/col/col1362/index.html

帮忙采集下,非常感谢·

zhouchanglin 发表于 2011-5-7 14:53:57

回复 134# zhangxiang

这种网站我也接触guo2ge了,用的js基本方法都是一样的

可以看这个帖子http://bbs.locoy.com/viewthread.php?tid=58756&page=1&extra=#pid383751,有我的分析

下面是你的这个网站获取数据的地址过程:
你的网站的主要部分:可以对比上面的那个网站的数据,都是差不多的$('#3891').jpage({themeName:'default',showMode:'normal',totalRecord:88,openCookies:false,dataBefore:'<table width="100%" border="0" cellspacing="0" cellpadding="0"><tr><td height="15"></td></tr></table>',dataStore:InitData3891,dataAfter:'',groupSize:1,proxyUrl:'/module/jslib/jquery/jpage/dataproxy.jsp',perPage:15,barPosition:'bottom',ajaxParam:{appid:'1',webid:1,path:'/',columnid:1362,sourceContentType:1,unitid:'3891',webname:'江苏教育信息网',permissiontype:0}});你这个网站获取全部数据的地址:http://www.jse.gov.cn//module/jslib/jquery/jpage/dataproxy.jsp?startrecord=1&endrecord=88&perpage=88&appid=1&webid=1&path=/&columnid=1362&sourceContentType=1&unitid=3891&webname=江苏教育信息网&permissiontype=0startrecord=1&endrecord=88&perpage=88是可以设置网站返回数据量的perpage=88:单页88条;startrecord=1:记录开始位置第一条;endrecord=88:记录结束位置第88条
因为通过返回的数据totalRecord=88.0;totalPage = 6;可以知道总数是88条,这样就可以用一页返回所有记录,网站默认是每页15条,这样列表不好生成

zhangxiang 发表于 2011-5-7 16:26:04

本帖最后由 zhangxiang 于 2011-5-7 16:29 编辑

明白了,因为post的值不变,而提交网页是变化的,而且是两个变量,所以把网址改造成get的形式,用手工生成采集网址,然后采集。是这样吧?现在我在参加站长大会…看到你的回复,很高兴,谢谢…

zhouchanglin 发表于 2011-5-7 17:42:05

回复 136# zhangxiang


    ali82ls

jskjsk 发表于 2011-5-10 09:55:34

楼主真是个热心人,我慢慢的从头看到尾真是佩服楼主啊,耐何没有楼主这高深的知道,郁闷之极
楼主能否帮忙看一下http://chengkao.eol.cn/zheng_ce_bh_3760/20110426/t20110426_606564.shtml
这个内容页
他的下一页调用是
<script src="/js/page_nav.js" language="JavaScript" ignoreapd='false'>
找遍论坛也没有找到解决方案,肯请楼主帮个忙

huxiaoming168 发表于 2011-5-14 15:39:02

http://www.0371-it.com/   右上角有个登陆 点登陆 用户名 tongda 密码 tongda进入后在左边点搜索引擎会出现很多公司列表
采集公司名称地址 联系人 手机号码 电话 QQ EMAIL
__EVENTTARGET=LinkButton3&__EVENTARGUMENT=&__LASTFOCUS=&__VIEWSTATE=&__EVENTVALIDATION==&ddlFenYe=[分页]
这是PSOT 数据但还是采集不到

huxiaoming168 发表于 2011-5-14 15:39:42

zhangxiang帮帮忙了

zhouchanglin 发表于 2011-5-14 21:22:12

本帖最后由 zhouchanglin 于 2011-5-14 21:23 编辑

回复 140# huxiaoming168
因为所有的东西只能在列表获取,所以post有些不容易,仿佛对列表post是没有意义的,其实设置正确的post数据每次获取的网页源码是会不同的,但由于列表的主要目的是获取内容页,而这个只能在列表加标签,由于你想获得标签多达4-5个,这样就是自定义获取也是不容易设置的,通配符会非常多,

另外一点:要使用cookie,需要登录

设置好自定义标签应该可以获取到的

另外的解决途径是:用PHP的curl模拟发送post数据给http://www.0371-it.com/web/SouSuo.aspx,本地生成每个分页的HTML文件,把这些HTML作为采集目标网址,作为内容页用火车头采集,不过还是要设置循环,这个正则设置好了,就可以达到目的
模拟PHP文件:需要开启curl扩展,有PHP运行环境

zhouchanglin 发表于 2011-5-15 11:22:54

回复 138# jskjsk


    你好,这个做插件可以采集,可以参考http://bbs.locoy.com/spider-55815-1-1.html,另外要标准版才能使用内部的php插件,其他办法是写php脚本,这样免费版也可以 了,调用目标地址,生成分页连接代码,返回源码,火车头采集

你的这个网站,有人问过,这个帖子http://bbs.locoy.com/viewthread.php?tid=59544&rpid=392476&fav=yes&ordertype=0&page=1#pid392476 我做过这个站
页: 4 5 6 7 8 9 10 11 12 13 [14] 15 16 17 18 19 20 21
查看完整版本: js post网站专区