高难度的,居然一点内容都采不到
友人手机网的,设了半天规则居然一点内容也采不到,列表页面http://mobile.younet.com/files/list_2.html
它这个很奇怪,点击链接后会在网址后动增加一串数字?2519082507=1873508849
本来是想发到悬赏区的,可惜我没有车箱了
免费请高人帮我看下,谢谢 list_2.html本身没具体内容.是个跳转页面 那是没办法了吗
有没没有办法可以知道它的真实地址
[ 本帖最后由 blackcake 于 2007-12-19 14:35 编辑 ] 你就直接采集 http://mobile.younet.com/files/list_2.html?2772718031=503494273就可以了。何必要采http://mobile.younet.com/files/list_2.html 呢? 他们站也是采集的哈哈。所有内容来自www.zol.com.cn的手机频道。:( :( :(
回复 4楼 的帖子
你刷新看看2772718031=503494273
这字符串是一直在变的. 这个站采集没什么难的.只是想不通他的实现原理.
采集的话
采集内容的时候.设置多页面采集.
问题是它下面的内容页面也是如此。
回复 8楼 的帖子
我说的多页采集就是采内容的时候用的.我大概说下这个站采集的思路.
这个站分为3层.
1.手机大全页面.从这个页面要得到各个品牌页面的地址.
2.品牌页面. 从这个页面要得到各个手机型号的具体地址.
3.手机具体型号内容. 最终要采的内容页面.
第1步)把手机大全这页面的源码全部复制出来保存到X.HTM
2)从X.HTM里采集出所有品牌页面的全部内容.
这里采集出来的地址都是http://mobile.younet.com/files/list_2.html这样.
在内容上设置多页面采集.可以采集到各个品牌页面里面的全部内容.
采集出来的内容保存TXT也好.找个发布系统给他发布出来也好.
你就做出了一个没有跳转的网址页面.
有了这个过渡页面.后面就简单了.从你做的过渡页面里采集每篇文章的具体地址.在内容里用多页采集来采集你需要的内容. 我大概明白你的意思了。就是先将顶级列表保存到本地,也就是让 list_2.html成为一个不变的列表页。
然后用火车头采集该页面下的一级列表,也就是帖子列表。
在主采集页不采集其任何内容,只采集其“多页”内容。
这的确是一个不错的主意。:lol :lol
页:
[1]