请问这样的网站怎么采集呢? 麻烦大大 高手 热心人来帮帮忙
目标网站www.cnbeta.com想把首页的文章给采集下来 但得到这样的链接http://www.cnbeta.com/article.php?sid=11981发现它是自动跳转到
<meta http-equiv="refresh" c>
我不知道怎么获取文章列表了
麻烦大大 高手 热心人来帮帮忙:loveliness: 无尽感激 这样看来,你得先看看论坛的教程或者3.1版本下面有个help电子书也是可以教你咋用火车的。先看看。 老大 经过分析ihttp://www.cnbeta.com/index.html 首页得到的是类似
http://www.cnbeta.com/article.php?sid=26211
http://www.cnbeta.com/article.php?sid=26212
http://www.cnbeta.com/article.php?sid=26213
http://www.cnbeta.com/article.php?sid=26214
的列表 其实都是一个php临时跳转文件 怎么筛选得到它对应的refresh后真正的html文件列表呢
http://www.cnbeta.com/articles/26211.htm
http://www.cnbeta.com/articles/26212.htm
http://www.cnbeta.com/articles/26213.htm
http://www.cnbeta.com/articles/26214.htm
有点想不明白 能不能提醒一下呢?
把网址采集深度变成2就能得到.htm的链接了 火车头果然强大
剩下就是规则了
[ 本帖最后由 vitree 于 2007-5-8 21:56 编辑 ]
页:
[1]