blackcake 发表于 2007-12-19 13:36:38

高难度的,居然一点内容都采不到

友人手机网的,设了半天规则居然一点内容也采不到,
列表页面http://mobile.younet.com/files/list_2.html
它这个很奇怪,点击链接后会在网址后动增加一串数字?2519082507=1873508849
本来是想发到悬赏区的,可惜我没有车箱了
免费请高人帮我看下,谢谢

fal 发表于 2007-12-19 14:10:50

list_2.html本身没具体内容.是个跳转页面

blackcake 发表于 2007-12-19 14:22:24

那是没办法了吗
有没没有办法可以知道它的真实地址

[ 本帖最后由 blackcake 于 2007-12-19 14:35 编辑 ]

sushy 发表于 2007-12-19 16:39:28

你就直接采集 http://mobile.younet.com/files/list_2.html?2772718031=503494273就可以了。何必要采http://mobile.younet.com/files/list_2.html 呢?

sushy 发表于 2007-12-19 16:49:13

他们站也是采集的哈哈。所有内容来自www.zol.com.cn的手机频道。:( :( :(

fal 发表于 2007-12-19 16:59:54

回复 4楼 的帖子

你刷新看看
2772718031=503494273
这字符串是一直在变的.

fal 发表于 2007-12-19 17:16:30

这个站采集没什么难的.只是想不通他的实现原理.

采集的话
采集内容的时候.设置多页面采集.

sushy 发表于 2007-12-19 17:30:55

问题是它下面的内容页面也是如此。

fal 发表于 2007-12-19 21:40:05

回复 8楼 的帖子

我说的多页采集就是采内容的时候用的.
我大概说下这个站采集的思路.
这个站分为3层.
1.手机大全页面.从这个页面要得到各个品牌页面的地址.
2.品牌页面.      从这个页面要得到各个手机型号的具体地址.
3.手机具体型号内容.   最终要采的内容页面.

第1步)把手机大全这页面的源码全部复制出来保存到X.HTM
2)从X.HTM里采集出所有品牌页面的全部内容.
这里采集出来的地址都是http://mobile.younet.com/files/list_2.html这样.
在内容上设置多页面采集.可以采集到各个品牌页面里面的全部内容.
采集出来的内容保存TXT也好.找个发布系统给他发布出来也好.
你就做出了一个没有跳转的网址页面.

有了这个过渡页面.后面就简单了.从你做的过渡页面里采集每篇文章的具体地址.在内容里用多页采集来采集你需要的内容.

sushy 发表于 2007-12-19 23:54:10

我大概明白你的意思了。就是先将顶级列表保存到本地,也就是让 list_2.html成为一个不变的列表页。

然后用火车头采集该页面下的一级列表,也就是帖子列表。

在主采集页不采集其任何内容,只采集其“多页”内容。

这的确是一个不错的主意。:lol :lol
页: [1]
查看完整版本: 高难度的,居然一点内容都采不到