火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4818|回复: 6

PHP 论坛的采集

[复制链接]
发表于 2006-11-22 13:28:39 | 显示全部楼层 |阅读模式
现在开始自己学习做采集规则了

发现好多论坛都是 PHPWIND的

他们的页面规则不好找

比如说
页面列表页 是 http://bbs.987987.cn/thread.php?fid-111.html

文章页面就成了 http://bbs.987987.cn/read.php?tid-40926.html

关联性也不太大

用包含和排除的设置,也抓不到 内容页面

刚开始学,经验不足

请高手或者版主给解释下

介绍点经验
发表于 2006-11-22 13:41:12 | 显示全部楼层
要抓http://bbs.987987.cn/thread.php?fid-111.html板块

在必须包含里填:read.php?tid-(*)

测试下看看,不行再改规则
 楼主| 发表于 2006-11-22 15:04:36 | 显示全部楼层
好像不行,来下面加入内容就采不到任何东西了
发表于 2006-11-22 15:07:10 | 显示全部楼层
这个板块要注册才能进去,我浏览不到,我的邮箱收不到注册信

你自己再看下,标题里有没有采到内容?

[ 本帖最后由 梦想中文 于 2006-11-22 15:16 编辑 ]
 楼主| 发表于 2006-11-22 15:48:22 | 显示全部楼层
连采集的页面都搜不到,更别说标题了

你点一下其他板块,可以进去,不要注册的

不知道是我哪儿错了
发表于 2006-11-22 16:01:15 | 显示全部楼层
好的,我正在采别人的站,等一下帮你做下规则


顺便问一下,你的站的地址是什么啊,我去看看你的站  :)

[ 本帖最后由 梦想中文 于 2006-11-22 16:08 编辑 ]
发表于 2006-11-22 16:40:48 | 显示全部楼层
我测了下http://bbs.987987.cn/thread.php?fid-58.html

文章内容页面的地址必须包含里添:read.php?tid-(*).html

不得包含里添:fpage

测试成功,找到2级网址36个,在内容规则里测试有内容

[ 本帖最后由 梦想中文 于 2006-11-22 16:41 编辑 ]
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 18:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表