对于这样的网址怎么采集呀?
http://book1.duxiu.com/gobaoku.jsp?dxid=000006560254&ssnum=12021937&d=EEE68784069D7BAA094FC5B42DEF9212&fenlei=160910这个网址需要登陆,dbdx01/dbdx08
登陆后:粘贴上面的网址,到最终显示的页面,会经过两次跳转,这两次跳转只在浏览器的地址栏可看到,很快的
第一次:会从服务器另外生成一个类似这样的网址
http://pds.sslibrary.com/fromduxiutoJpg.jsp?username=dbdx01&dl=84939200FE1F9D8F5948C04FC628DB96&d=45E0D3F48985B59F92BB979E2755D2A2&ssnum=12021937&fenleiID=all&ssreaderurl=http%3A%2F%2Fpds.sslibrary.com%3A80%2FgopdgRead.jsp%3FdxNumber%3D12021937%26d%3D7064A731228BE48B1EF3748726972186%26fenleiID%3Dall%26username%3Dssgplibrary%26pdgcode%3D03528A000A3126203DF150A43A18562E%26jpathkey%3D3805480067054
第二次:又会从第一次跳转到下面类似的网址,
http://img.sslibrary.com/DsrPath?kid=6869676968706A6E3735313332313537&a=14C4F5BF0BC62C28B404846526B41B8C&pagenum=1&pagetype=&pages=-1&template=templatessl&fav=http%3A%2F%2Fpds.sslibrary.com%3A80%2FgopdgRead.jsp%3FdxNumber%3D12021937%26d%3D7064A731228BE48B1EF3748726972186%26fenleiID%3Dall%26username%3Dssgplibrary%26pdgcode%3D03528A000A3126203DF150A43A18562E%26jpathkey%3D3805476780368
这样采集最终页面里的内容项,怎么采集呀?
因为上面两次跳转的网址里面的变量都是有有效期,无法事先储存,储存会失效
http://book1.duxiu.com/gobaoku.jsp?dxid=000006560254&ssnum=12021937&d=EEE68784069D7BAA094FC5B42DEF9212&fenlei=160910
这个网址在火车里采集没有内容,只有采集实时的第二次跳转的网址才有内容
这个问题怎么解决?
页:
[1]