我想采集天涯的用户名,请问天涯的网址怎么采集啊?
以下分别是天涯我的大学版块的前3页的分页地址,我仔细分析了一下这个地址有多处变量,单单将页码通配符是不行的,请问哪位能够解决啊?http://www.tianya.cn/new/publicforum/articleslist.asp?pageNO=1&strItem=university&Part=0&strSubItem=&strSubItem2=
http://www.tianya.cn/new/publicforum/articleslist.asp?pageNO=2&strItem=university&Part=0&NextArticle=2009%2D11%2D1+15%3A33%3A59&strSubItem=&strSubItem2=
http://www.tianya.cn/new/publicforum/articleslist.asp?pageNO=3&strItem=university&Part=0&NextArticle=2009%2D11%2D1+12%3A59%3A15&strSubItem=&strSubItem2=
pageNO=1 未变量1
2009%2D11%2D1+15%3A33%3A59 未变量2 NextArticle这个参数可以不要。 NextArticle这个参数可以不要。
火车头 发表于 2009-11-1 19:43 http://bbs.locoy.com/images/common/back.gif
火车头按照你的去做了,发现行不通啊这个!比如去掉NextArticle参数后,输入页码pageNO=60和pageNO=80,发现两个页面是一摸一样的 呵,你不用看了。这个得另外写程序来处理的。这个我研究过。他每个分页都是随机的,没有规律的,需要的话可以联系我
页:
[1]