火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2458|回复: 4

分页采集范围不同,怎么办?

[复制链接]
发表于 2008-10-23 16:03:53 | 显示全部楼层 |阅读模式
哦,想采集这样内容
第一页:即有内容1又有内容2

其他分页:则只有内容1
(第一页只要将采集内容设置大点就可以同时采集内容1与内容2了。但采集内容范围扩大后,在其他分页却不适用。。)
我想设置采集内容规则为两个,一个比较大的范围以匹配第一页采集,一个比较小的范围以匹配其他页。。。采集时,设置成只要满足其中一个范围即进行匹配采集。。。当然,优行从范围大的那个开始采集,如果没有,就采集范围小的。。。。


有些分页采集范围为
<star>........要采集内容1。。。。<zhjiant>.....<要采集内容2。。。。。<end>
有些分页采集范围为:
<star>........要采集内容1。。。。<zhjiant>                        。。。。。。没有<end>了 ...

要采集这样的页面,不用正则能实现么??应怎么设置?
发表于 2008-10-23 21:32:47 | 显示全部楼层
你这种应该是不同模板的网页,这种基本上要用到正则,正则比较容易实现,其它的方法还没有想到。
 楼主| 发表于 2008-10-23 22:44:13 | 显示全部楼层
在本例中。。我想这样设置正则。。

<star>[?(content).*?]<end>|<star>[?(content).*?]<zhjiant>这样

老大指教



[ 本帖最后由 sslck 于 2008-10-23 23:08 编辑 ]
发表于 2008-10-24 10:22:36 | 显示全部楼层
我的做法一般是这样:

<star>........要采集内容1。。。。<zhjiant>.....<要采集内容2。。。。。<end>……<biaoji>

我采集从 <star> 到  oji>
然后将  <end>(*)<bia  替换为  <end>
 楼主| 发表于 2008-10-25 14:28:40 | 显示全部楼层
自己解决了。。谢谢
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 04:43

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表