PHP 论坛的采集
现在开始自己学习做采集规则了发现好多论坛都是 PHPWIND的
他们的页面规则不好找
比如说
页面列表页 是 http://bbs.987987.cn/thread.php?fid-111.html
文章页面就成了 http://bbs.987987.cn/read.php?tid-40926.html
关联性也不太大
用包含和排除的设置,也抓不到 内容页面
刚开始学,经验不足
请高手或者版主给解释下
介绍点经验 要抓http://bbs.987987.cn/thread.php?fid-111.html板块
在必须包含里填:read.php?tid-(*)
测试下看看,不行再改规则 好像不行,来下面加入内容就采不到任何东西了 这个板块要注册才能进去,我浏览不到,我的邮箱收不到注册信
你自己再看下,标题里有没有采到内容?
[ 本帖最后由 梦想中文 于 2006-11-22 15:16 编辑 ] 连采集的页面都搜不到,更别说标题了
你点一下其他板块,可以进去,不要注册的
不知道是我哪儿错了 好的,我正在采别人的站,等一下帮你做下规则
顺便问一下,你的站的地址是什么啊,我去看看你的站:)
[ 本帖最后由 梦想中文 于 2006-11-22 16:08 编辑 ] 我测了下http://bbs.987987.cn/thread.php?fid-58.html
文章内容页面的地址必须包含里添:read.php?tid-(*).html
不得包含里添:fpage
测试成功,找到2级网址36个,在内容规则里测试有内容
[ 本帖最后由 梦想中文 于 2006-11-22 16:41 编辑 ]
页:
[1]