火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1882|回复: 1

请教2个内容采集问题

[复制链接]
发表于 2013-1-11 18:43:51 | 显示全部楼层 |阅读模式
1 获取content中,有个“正文提取”,“提取内容”,这个的规则是什么,针对新闻类网站各种格式都能抓到,很牛
2 抓取http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870.shtml的时候,因为有分页,所以把上一页和第一页的文字抓取了,而过滤掉后面的内容

分页的时候指定了抓取规则,也抓取了
正在分析 默认页 的分页中
下载分析 默认页 的分页 1   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_2.shtml
下载分析 默认页 的分页 2   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_3.shtml
下载分析 默认页 的分页 3   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_4.shtml
下载分析 默认页 的分页 4   http://tech.sina.com.cn/mobile/n/2013-01-11/15107970870_5.shtml

只是实际获取的content还是第一页的内容,怎么把所有分页都抓到一个content内,有办法么
发表于 2013-1-11 19:28:34 | 显示全部楼层
在内容里设分页规则,然后添加分页连接符号到时候方便你处理,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-15 14:51

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表