charistain 发表于 2012-12-13 18:25:28

多页管理中没有成功采集到帖子的网址

我想采集下面页面的部分帖子和内容http://www.hualongxiang.com/qinzi,我的思路是想采集到这个页面中帖子的网址,在使用多页管理采集网址的帖子内容。但是第一步采集帖子的网址失败了。
帖子的主题和url 格式如下:
<a href="/qinzi/9251890" name="readlink" id="a_ajax_9251890" class="subject_t f14" title="2012笑妈育儿日记,每天都有新的发现" style="">2012笑妈育儿日记,每天都有新的发现</a>
<a href="/qinzi/10150792" name="readlink" id="a_ajax_10150792" class="subject_t f14" title="带孩子的家长必看-大家来说说带孩子外出最危险的是什么?" style="">带孩子的家长必看-大家来说说带孩子外出最危险的是什么?</a>
<a href="/qinzi/6829673" name="readlink" id="a_ajax_6829673" class="subject_t f14" title="非非的成长笔记,记录下你的点点滴滴" style="">非非的成长笔记,记录下你的点点滴滴</a>


但是我使用下面的正则表达式获取网址失败了,麻烦哪位看下谢谢:
正则内容:<a href="/qinzi/[参数]" name="readlink"
组合结果:http://www.hualongxiang.com/qinzi/[参数1]

rq204 发表于 2012-12-14 09:56:21

组合的看起来是不错的,可能您需要更精确的处理,使用火车采集器的源源查看工具获取源码,然后对照看一下您找到的代码是不是正确的。有时用浏览器看到的源码和采集器是不一样的。

charistain 发表于 2012-12-17 20:26:25

rq204 发表于 2012-12-14 09:56 static/image/common/back.gif
组合的看起来是不错的,可能您需要更精确的处理,使用火车采集器的源源查看工具获取源码,然后对照看一下您 ...

这个问题我反复看了好几遍,但是还是没有采集到网址,估计是思维定时了总转不过弯来,您能否帮我分析一下这个网址的采集的规则,谢谢
页: [1]
查看完整版本: 多页管理中没有成功采集到帖子的网址