dkpeqf5 发表于 2011-6-23 12:31:59

50元求一网站采集规则,高难度,高手请进

本帖最后由 dkpeqf5 于 2011-6-30 21:23 编辑

50元求一个网址采集规则,难度较大,需要高手才能弄,新手请不要打扰!!

QQ:2425549293

专业收费采集 发表于 2011-6-23 12:38:44

已经联系 QQ1391828939

zayautov 发表于 2011-6-23 15:27:23

联系qq :       284145780

dkpeqf5 发表于 2011-6-25 20:05:31

至今,仍然没有高手解决,?哪位可以弄呢?

heking5201 发表于 2011-6-26 14:35:55

回复 4# dkpeqf5


    那只能说明。你给的银子还不够让高手敢兴趣。。。

zhouchanglin 发表于 2011-6-26 16:31:31

回复 1# dkpeqf5

发下网址吧,比较感兴趣有难度的

dkpeqf5 发表于 2011-6-29 09:48:13

加到100元,有哪位能搞定的话!

snrtdwss 发表于 2011-6-29 14:23:59

什么规则呀ali64lsali62ls

dkpeqf5 发表于 2011-6-30 21:15:15

至今无人能搞定,有意愿的尝试的可以QQ联系:2425549293

zhouchanglin 发表于 2011-7-1 19:45:39

本帖最后由 zhouchanglin 于 2011-7-1 19:49 编辑

http://lib.cqvip.com/ZK/search.aspx?E=%28Introduce%3D@%29*%28WeeKS%3D258%29&M=&P=1
这个网站吧
本地架设php环境,用php模拟post,获取ScrollPage(11,569,549);里的2,3参数,生成每页的html文件,最后采集这些html文件


href='javascript:ScrollPage(2,389,0);'>2</a>
翻页函数:function ScrollPage(page,cursor,lc)
{

        document.DownForm.P.value=page;
        document.DownForm.CC.value=cursor;
        document.DownForm.LC.value=lc;
        document.DownForm.action="/ZK/search.aspx";
        document.DownForm.target="_self";
        document.DownForm.submit();
}翻页提交的表单<form name="DownForm" method="post">
<input type="hidden" name="E" value="(Introduce=@)*(WeeKS=258)" />
<input type="hidden" name="M" value="" />
<input type="hidden" name="P" value="1"/>
<input type="hidden" name="CP" value="1"/>
<input type="hidden" name="CC" value="0"/>
<input type="hidden" name="LC" value="0"/>
<input type="hidden" name="H" value="" />
<input type="hidden" name="Entry" value="" />
<input type="hidden" name="S"value="0"/>
<input type="hidden" name="SJ" id="DownFormSJ" value="0"/>
<input type="hidden" name="ZJ" value="" />
<input type="hidden" name="GC" value="" />
<input type="hidden" name="Type" value="" />
<input type="hidden" name="strChkRecord" id="strChkRecord" value="" />
<input type="hidden" name="ChkRecordCount" id="ChkRecordCount" value="0" />


</form>同时name="CC “被重新设置ScrollPage(11,569,549);中第2个参数,name="LC"-------------第3个参数,好像是来源页和当前页的信息,还是不清楚第2个参数怎么生成的,没有规律,第3个参数就是原来的第2个参数

我是用curl 模拟post,依次获取下一页的关键信息,就是目标页的ScrollPage(11,569,549);里第2,3,参数,然后组成post数据,提交给http://lib.cqvip.com/ZK/search.aspx,开始时测试页码时变的,但内容始终是第一页,最后才发现组合的post数据里有个字段错了

错误的post数据:$postdata='E=%28Introduce%3D@%29*%28WeeKS%3D258%29&M=&P='.$yema.'&CP='.$yema.'&CC='.$cc.'&LC='.$lc.'&H=&Entry=&S=0&SJ=0&ZJ=&Type=&strChkRecord=&ChkRecordCount=0';

其中CP='.$yema错了,应该是CP='.$yema-1,因为是从这页翻页,修改后,可以生成这些html文件,然后火车头采集,由于请求很多分页,所以速度很慢,有雨本人是php菜鸟,一些动态效果也不会,好像缓存输出的,不会,另外这个只能对你这个查询条件有效,当然可以通过第一个页面,获得一些不变的表单字段,然后应该可以通用,我这个php文件还没有做这些


php环境,wamp安装包,使用比较简单,狭义开启curl扩展,默认没有开启
wamp下载地址http://www.wampserver.com/en/
文件:
这是我生成的31页html,说明,一页页的依次向后翻页,得到的html会和原网站相同,路过网站跳跃翻页,东翻西翻,好像会不同,不清楚怎么回事】
页: [1] 2
查看完整版本: 50元求一网站采集规则,高难度,高手请进