axhchrw 发表于 2009-11-1 16:27:41

我想采集天涯的用户名,请问天涯的网址怎么采集啊?

以下分别是天涯我的大学版块的前3页的分页地址,我仔细分析了一下这个地址有多处变量,单单将页码通配符是不行的,请问哪位能够解决啊?


http://www.tianya.cn/new/publicforum/articleslist.asp?pageNO=1&strItem=university&Part=0&strSubItem=&strSubItem2=

http://www.tianya.cn/new/publicforum/articleslist.asp?pageNO=2&strItem=university&Part=0&NextArticle=2009%2D11%2D1+15%3A33%3A59&strSubItem=&strSubItem2=


http://www.tianya.cn/new/publicforum/articleslist.asp?pageNO=3&strItem=university&Part=0&NextArticle=2009%2D11%2D1+12%3A59%3A15&strSubItem=&strSubItem2=

pageNO=1 未变量1

2009%2D11%2D1+15%3A33%3A59 未变量2

火车头 发表于 2009-11-1 19:43:21

NextArticle这个参数可以不要。

axhchrw 发表于 2009-11-1 20:12:04

NextArticle这个参数可以不要。
火车头 发表于 2009-11-1 19:43 http://bbs.locoy.com/images/common/back.gif


火车头按照你的去做了,发现行不通啊这个!比如去掉NextArticle参数后,输入页码pageNO=60和pageNO=80,发现两个页面是一摸一样的

飛越無限 发表于 2009-11-1 23:07:36

呵,你不用看了。这个得另外写程序来处理的。这个我研究过。他每个分页都是随机的,没有规律的,需要的话可以联系我
页: [1]
查看完整版本: 我想采集天涯的用户名,请问天涯的网址怎么采集啊?