多页管理中没有成功采集到帖子的网址
我想采集下面页面的部分帖子和内容http://www.hualongxiang.com/qinzi,我的思路是想采集到这个页面中帖子的网址,在使用多页管理采集网址的帖子内容。但是第一步采集帖子的网址失败了。帖子的主题和url 格式如下:
<a href="/qinzi/9251890" name="readlink" id="a_ajax_9251890" class="subject_t f14" title="2012笑妈育儿日记,每天都有新的发现" style="">2012笑妈育儿日记,每天都有新的发现</a>
<a href="/qinzi/10150792" name="readlink" id="a_ajax_10150792" class="subject_t f14" title="带孩子的家长必看-大家来说说带孩子外出最危险的是什么?" style="">带孩子的家长必看-大家来说说带孩子外出最危险的是什么?</a>
<a href="/qinzi/6829673" name="readlink" id="a_ajax_6829673" class="subject_t f14" title="非非的成长笔记,记录下你的点点滴滴" style="">非非的成长笔记,记录下你的点点滴滴</a>
但是我使用下面的正则表达式获取网址失败了,麻烦哪位看下谢谢:
正则内容:<a href="/qinzi/[参数]" name="readlink"
组合结果:http://www.hualongxiang.com/qinzi/[参数1] 组合的看起来是不错的,可能您需要更精确的处理,使用火车采集器的源源查看工具获取源码,然后对照看一下您找到的代码是不是正确的。有时用浏览器看到的源码和采集器是不一样的。 rq204 发表于 2012-12-14 09:56 static/image/common/back.gif
组合的看起来是不错的,可能您需要更精确的处理,使用火车采集器的源源查看工具获取源码,然后对照看一下您 ...
这个问题我反复看了好几遍,但是还是没有采集到网址,估计是思维定时了总转不过弯来,您能否帮我分析一下这个网址的采集的规则,谢谢
页:
[1]