vitree 发表于 2007-5-7 18:01:39

请问这样的网站怎么采集呢? 麻烦大大 高手 热心人来帮帮忙

目标网站www.cnbeta.com

想把首页的文章给采集下来 但得到这样的链接http://www.cnbeta.com/article.php?sid=11981发现它是自动跳转到

<meta http-equiv="refresh" c>

我不知道怎么获取文章列表了

麻烦大大 高手 热心人来帮帮忙:loveliness: 无尽感激

xyyfx 发表于 2007-5-8 13:37:45

这样看来,你得先看看论坛的教程或者3.1版本下面有个help电子书也是可以教你咋用火车的。先看看。

vitree 发表于 2007-5-8 21:18:16

老大 经过分析ihttp://www.cnbeta.com/index.html 首页得到的是类似
http://www.cnbeta.com/article.php?sid=26211
http://www.cnbeta.com/article.php?sid=26212
http://www.cnbeta.com/article.php?sid=26213
http://www.cnbeta.com/article.php?sid=26214

的列表 其实都是一个php临时跳转文件 怎么筛选得到它对应的refresh后真正的html文件列表呢

http://www.cnbeta.com/articles/26211.htm
http://www.cnbeta.com/articles/26212.htm
http://www.cnbeta.com/articles/26213.htm
http://www.cnbeta.com/articles/26214.htm


有点想不明白 能不能提醒一下呢?

把网址采集深度变成2就能得到.htm的链接了 火车头果然强大
剩下就是规则了


[ 本帖最后由 vitree 于 2007-5-8 21:56 编辑 ]
页: [1]
查看完整版本: 请问这样的网站怎么采集呢? 麻烦大大 高手 热心人来帮帮忙