reaki 发表于 2010-11-9 11:51:10

采集文章的地址有分页,分页地址用JS写的怎么采集?

采集地址:http://www.abbao.net/paper/paper_40.html

这是个报纸页,这个地址按日期列出要采集的报纸

第二层列出要真正采集的页面,但是有个问题,有分页,而且是JS,火车后网址采集时没有增加分页功能,这怎么解决啊?哪位高手给个建议?

其实也可以用一层来采http://www.abbao.net/SearchPaper.aspx?paperName=京华时报同样地址是JS 到采集页面是内容选择也用了select 选择内容 高手帮看看 能不能采集?

303718 发表于 2010-11-9 11:59:27

你好,用POST方式采集

reaki 发表于 2010-11-9 12:27:37

请问POST怎么采集?
POST只支持一层那只能用http://www.abbao.net/SearchPaper.aspx?paperName=京华时报
因为按这个网址去采列表地址,列表地址每天都会变的,不懂POST采集,搜索论坛也没有个详细的说明,能详细介绍一下吗?能个例子我就会用了

zjyk1984 发表于 2010-11-9 12:41:01

不需要用POST的,后面有PAGE页码
http://www.abbao.net/Issue.aspx?issueId=5ad4059b-ab87-449b-b8b5-1715827ab50b&page=2

reaki 发表于 2010-11-9 12:45:59

都别只是说啊 页码是对的 但是你要获取前面那个变量地址啊我只想要那张大图 大家有什么好的方法具体说下 谢谢啦

reaki 发表于 2010-11-9 13:20:08

再来补充一下
要采集的内容是http://www.abbao.net/ViewPage.aspx?issueId=5ad4059b-ab87-449b-b8b5-1715827ab50b&order=1

这个地址有两个变量http://www.abbao.net/ViewPage.aspx?issueId=变量1&order=变量2
这个地址是经过一个固定不变的地址抓取的
http://www.abbao.net/SearchPaper.aspx?paperName=京华时报这样在抓取页面只能得到变量1变量2无法得到

第二种方法从固定地址http://www.abbao.net/paper/paper_40.html得到采集列表分类地址
比如http://www.abbao.net/Issue.aspx?issueId=5ad4059b-ab87-449b-b8b5-1715827ab50b
再分析上面地址所包含的真正要采集的网址,但是如果上面的地址出现分页就不能采全了
页: [1]
查看完整版本: 采集文章的地址有分页,分页地址用JS写的怎么采集?