cc5566 发表于 2006-11-22 13:28:39

PHP 论坛的采集

现在开始自己学习做采集规则了

发现好多论坛都是 PHPWIND的

他们的页面规则不好找

比如说
页面列表页 是 http://bbs.987987.cn/thread.php?fid-111.html

文章页面就成了 http://bbs.987987.cn/read.php?tid-40926.html

关联性也不太大

用包含和排除的设置,也抓不到 内容页面

刚开始学,经验不足

请高手或者版主给解释下

介绍点经验

梦想中文 发表于 2006-11-22 13:41:12

要抓http://bbs.987987.cn/thread.php?fid-111.html板块

在必须包含里填:read.php?tid-(*)

测试下看看,不行再改规则

cc5566 发表于 2006-11-22 15:04:36

好像不行,来下面加入内容就采不到任何东西了

梦想中文 发表于 2006-11-22 15:07:10

这个板块要注册才能进去,我浏览不到,我的邮箱收不到注册信

你自己再看下,标题里有没有采到内容?

[ 本帖最后由 梦想中文 于 2006-11-22 15:16 编辑 ]

cc5566 发表于 2006-11-22 15:48:22

连采集的页面都搜不到,更别说标题了

你点一下其他板块,可以进去,不要注册的

不知道是我哪儿错了

梦想中文 发表于 2006-11-22 16:01:15

好的,我正在采别人的站,等一下帮你做下规则


顺便问一下,你的站的地址是什么啊,我去看看你的站:)

[ 本帖最后由 梦想中文 于 2006-11-22 16:08 编辑 ]

梦想中文 发表于 2006-11-22 16:40:48

我测了下http://bbs.987987.cn/thread.php?fid-58.html

文章内容页面的地址必须包含里添:read.php?tid-(*).html

不得包含里添:fpage

测试成功,找到2级网址36个,在内容规则里测试有内容

[ 本帖最后由 梦想中文 于 2006-11-22 16:41 编辑 ]
页: [1]
查看完整版本: PHP 论坛的采集