采集文章的地址有分页，分页地址用JS写的怎么采集？

reaki 发表于 2010-11-9 11:51:10

采集地址：http://www.abbao.net/paper/paper_40.html

这是个报纸页，这个地址按日期列出要采集的报纸

第二层列出要真正采集的页面，但是有个问题，有分页，而且是JS，火车后网址采集时没有增加分页功能，这怎么解决啊？哪位高手给个建议？

其实也可以用一层来采http://www.abbao.net/SearchPaper.aspx?paperName=京华时报同样地址是JS 到采集页面是内容选择也用了select 选择内容高手帮看看能不能采集？

303718 发表于 2010-11-9 11:59:27

你好，用POST方式采集

reaki 发表于 2010-11-9 12:27:37

请问POST怎么采集？
POST只支持一层那只能用http://www.abbao.net/SearchPaper.aspx?paperName=京华时报
因为按这个网址去采列表地址，列表地址每天都会变的，不懂POST采集，搜索论坛也没有个详细的说明，能详细介绍一下吗？能个例子我就会用了

zjyk1984 发表于 2010-11-9 12:41:01

不需要用POST的，后面有PAGE页码
http://www.abbao.net/Issue.aspx?issueId=5ad4059b-ab87-449b-b8b5-1715827ab50b&page=2

reaki 发表于 2010-11-9 12:45:59

都别只是说啊页码是对的但是你要获取前面那个变量地址啊我只想要那张大图大家有什么好的方法具体说下谢谢啦

reaki 发表于 2010-11-9 13:20:08

再来补充一下
要采集的内容是http://www.abbao.net/ViewPage.aspx?issueId=5ad4059b-ab87-449b-b8b5-1715827ab50b&order=1

这个地址有两个变量http://www.abbao.net/ViewPage.aspx?issueId=变量1&order=变量2
这个地址是经过一个固定不变的地址抓取的
http://www.abbao.net/SearchPaper.aspx?paperName=京华时报这样在抓取页面只能得到变量1变量2无法得到

第二种方法从固定地址http://www.abbao.net/paper/paper_40.html得到采集列表分类地址
比如http://www.abbao.net/Issue.aspx?issueId=5ad4059b-ab87-449b-b8b5-1715827ab50b
再分析上面地址所包含的真正要采集的网址，但是如果上面的地址出现分页就不能采全了

页: [1]

火车采集器软件交流官方论坛's Archiver

采集文章的地址有分页，分页地址用JS写的怎么采集？