火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3083|回复: 7

采集分页,结果采到的是别人完整的页面

[复制链接]
发表于 2008-10-27 15:44:15 | 显示全部楼层 |阅读模式
哪里设置错了呢?
在线等

[ 本帖最后由 网址之家 于 2008-10-27 17:12 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2008-10-27 15:48:58 | 显示全部楼层
详细页面和代码发来,不然神仙都看不懂.
 楼主| 发表于 2008-10-27 15:58:09 | 显示全部楼层
管理员你好
我采的是个女性网
如果不采分页
采到的内容就很正常
只要一采分页
就都把完整页面给采下来了
我真的不知道该在哪里设置了
另外你让我发哪个页面呀?
发表于 2008-10-27 16:54:10 | 显示全部楼层
你的采集目标站的网址,另外你的采集规则。发布上来我们看看。
 楼主| 发表于 2008-10-27 17:13:43 | 显示全部楼层
楼上两位老大
规则我发出来了
这个单独的规则是采集beauty.pclady.com.cn/hairstyle/index_1.html这些分页的
你们两位帮我看看哪里没设置好吧
感觉这里真不错
如果是别的论坛
根本没人理的
发表于 2008-10-28 00:08:22 | 显示全部楼层
采集内容页规则(如http://beauty.pclady.com.cn/hairstyle/0809/319990.html):


采集 从 <div id="art_text" class="l24"> 到 <p align="center"><a href="http:// 选中 该标签在分页中匹配

分页 从 <div id="page_num" style="margin:15px auto;"> 到  </div>  选择上下页模式。选择 用分隔符添加在后面 。


很简单,你的第一页的规则,第二页不适用。

而且,你的分页规则也不通用。

我重写了一个,你测试一下。不一定完美,要去掉很多垃圾代码。



[ 本帖最后由 sushy 于 2008-10-28 00:51 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

 楼主| 发表于 2008-10-28 14:54:49 | 显示全部楼层
有一部分文章标题是只有一个“|”
发表于 2008-10-28 15:21:18 | 显示全部楼层
这是因为规则并不是在所有文章中通用。我写的这个,只是在大部分文章通过,可能有些内容页不适用。

针对这种情况,建议你重写文章规则。或者手工将该发布内容删除。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 13:44

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表