js post网站专区 - 第14页 - 规则模块插件资源区 - 火车采集器软件交流官方论坛

爱淘宝 发表于 2011-5-3 23:58:08

我

本帖最后由爱淘宝于 2011-5-5 20:22 编辑

我已经会做了，谢谢！ali68ls

zhangxiang 发表于 2011-5-5 21:46:19

http://www.jse.gov.cn/col/col1362/index.html

帮忙采集下，非常感谢·

zhouchanglin 发表于 2011-5-7 14:53:57

回复 134# zhangxiang

这种网站我也接触guo2ge了，用的js基本方法都是一样的

可以看这个帖子http://bbs.locoy.com/viewthread.php?tid=58756&page=1&extra=#pid383751，有我的分析

下面是你的这个网站获取数据的地址过程：
你的网站的主要部分：可以对比上面的那个网站的数据，都是差不多的$('#3891').jpage({themeName:'default',showMode:'normal',totalRecord:88,openCookies:false,dataBefore:'<table width="100%" border="0" cellspacing="0" cellpadding="0"><tr><td height="15"></td></tr></table>',dataStore:InitData3891,dataAfter:'',groupSize:1,proxyUrl:'/module/jslib/jquery/jpage/dataproxy.jsp',perPage:15,barPosition:'bottom',ajaxParam:{appid:'1',webid:1,path:'/',columnid:1362,sourceContentType:1,unitid:'3891',webname:'江苏教育信息网',permissiontype:0}});你这个网站获取全部数据的地址：http://www.jse.gov.cn//module/jslib/jquery/jpage/dataproxy.jsp?startrecord=1&endrecord=88&perpage=88&appid=1&webid=1&path=/&columnid=1362&sourceContentType=1&unitid=3891&webname=江苏教育信息网&permissiontype=0startrecord=1&endrecord=88&perpage=88是可以设置网站返回数据量的perpage=88：单页88条；startrecord=1：记录开始位置第一条；endrecord=88：记录结束位置第88条
因为通过返回的数据totalRecord=88.0;totalPage = 6;可以知道总数是88条，这样就可以用一页返回所有记录，网站默认是每页15条，这样列表不好生成

zhangxiang 发表于 2011-5-7 16:26:04

本帖最后由 zhangxiang 于 2011-5-7 16:29 编辑

明白了，因为post的值不变，而提交网页是变化的，而且是两个变量，所以把网址改造成get的形式，用手工生成采集网址，然后采集。是这样吧？现在我在参加站长大会…看到你的回复，很高兴，谢谢…

zhouchanglin 发表于 2011-5-7 17:42:05

回复 136# zhangxiang

ali82ls

jskjsk 发表于 2011-5-10 09:55:34

楼主真是个热心人，我慢慢的从头看到尾真是佩服楼主啊，耐何没有楼主这高深的知道，郁闷之极
楼主能否帮忙看一下http://chengkao.eol.cn/zheng_ce_bh_3760/20110426/t20110426_606564.shtml
这个内容页
他的下一页调用是
<script src="/js/page_nav.js" language="JavaScript" ignoreapd='false'>
找遍论坛也没有找到解决方案，肯请楼主帮个忙

huxiaoming168 发表于 2011-5-14 15:39:02

http://www.0371-it.com/ 右上角有个登陆点登陆用户名 tongda 密码 tongda进入后在左边点搜索引擎会出现很多公司列表
采集公司名称地址联系人手机号码电话 QQ EMAIL
__EVENTTARGET=LinkButton3&__EVENTARGUMENT=&__LASTFOCUS=&__VIEWSTATE=&__EVENTVALIDATION==&ddlFenYe=[分页]
这是PSOT 数据但还是采集不到

huxiaoming168 发表于 2011-5-14 15:39:42

zhangxiang帮帮忙了

zhouchanglin 发表于 2011-5-14 21:22:12

本帖最后由 zhouchanglin 于 2011-5-14 21:23 编辑

回复 140# huxiaoming168
因为所有的东西只能在列表获取，所以post有些不容易，仿佛对列表post是没有意义的，其实设置正确的post数据每次获取的网页源码是会不同的，但由于列表的主要目的是获取内容页，而这个只能在列表加标签，由于你想获得标签多达4-5个，这样就是自定义获取也是不容易设置的，通配符会非常多，

另外一点：要使用cookie，需要登录

设置好自定义标签应该可以获取到的

另外的解决途径是：用PHP的curl模拟发送post数据给http://www.0371-it.com/web/SouSuo.aspx，本地生成每个分页的HTML文件，把这些HTML作为采集目标网址，作为内容页用火车头采集，不过还是要设置循环，这个正则设置好了，就可以达到目的
模拟PHP文件：需要开启curl扩展，有PHP运行环境

zhouchanglin 发表于 2011-5-15 11:22:54

回复 138# jskjsk

你好，这个做插件可以采集，可以参考http://bbs.locoy.com/spider-55815-1-1.html，另外要标准版才能使用内部的php插件，其他办法是写php脚本，这样免费版也可以了，调用目标地址，生成分页连接代码，返回源码，火车头采集

你的这个网站，有人问过，这个帖子http://bbs.locoy.com/viewthread.php?tid=59544&rpid=392476&fav=yes&ordertype=0&page=1#pid392476 我做过这个站

页: 4 5 6 7 8 9 10 11 12 13 [14] 15 16 17 18 19 20 21

火车采集器软件交流官方论坛's Archiver

我