michealluo 发表于 2012-3-3 11:42:58

哪个高手帮忙看看这个网站怎么采集



http://www.jc-data.com/down.aspx?__EVENTTARGET=ctl00$ContentPlaceHolder1$AspNetPager1&__EVENTARGUMENT=1
http://www.jc-data.com/down.aspx?__EVENTTARGET=ctl00$ContentPlaceHolder1$AspNetPager1&__EVENTARGUMENT=2
http://www.jc-data.com/down.aspx?__EVENTTARGET=ctl00$ContentPlaceHolder1$AspNetPager1&__EVENTARGUMENT=3
......
http://www.jc-data.com/down.aspx?__EVENTTARGET=ctl00$ContentPlaceHolder1$AspNetPager1&__EVENTARGUMENT=n

要采集 “教材名称类别 出版社年级课程日期 大小 下载 次数 ”
没有二级页面,请教下这个要怎么采集啊

michealluo 发表于 2012-3-3 11:43:58

自己顶:(,等高手

michealluo 发表于 2012-3-3 11:49:37

{:4_181:}{:4_181:}{:4_181:}{:4_181:}{:4_181:}{:4_181:}{:4_181:}

lypying 发表于 2012-3-3 11:50:46

单页循环匹配:(:(:(:(:(

michealluo 发表于 2012-3-3 11:52:19

怎么搞啊,你会整吗?

michealluo 发表于 2012-3-3 11:53:14

单页循环匹配要怎么做啊,可以截图看看吗?

michealluo 发表于 2012-3-3 11:54:53


是在这里设置吗?

michealluo 发表于 2012-3-3 11:55:34

lypying 发表于 2012-3-3 11:50 static/image/common/back.gif
单页循环匹配

{:4_180:} 大哥,请教下怎么单页循环匹配啊?

21256 发表于 2012-3-3 14:27:41

第一步里面,采集网址深度设置为0
第二步里面   标签循环匹配设置为    添加为新纪录
然后    把几个标签里面的      该标签循环匹配都选中
   

OK了

dedecmss 发表于 2012-3-3 23:30:30

这个最好的方法是做个采集接口,因为是0级的post,火车头目前没有办法对0级post的,可以用接口接收想要获取的分页页码,然后对其模拟post请求,我看了这个网站的post过程,这个可以用接口很好的解决。

路需要此接口采集该网站,联系http://wpa.qq.com/pa?p=2:972130397:47
页: [1] 2
查看完整版本: 哪个高手帮忙看看这个网站怎么采集