分页采集范围不同,怎么办?
哦,想采集这样内容第一页:即有内容1又有内容2
其他分页:则只有内容1
(第一页只要将采集内容设置大点就可以同时采集内容1与内容2了。但采集内容范围扩大后,在其他分页却不适用。。)
我想设置采集内容规则为两个,一个比较大的范围以匹配第一页采集,一个比较小的范围以匹配其他页。。。采集时,设置成只要满足其中一个范围即进行匹配采集。。。当然,优行从范围大的那个开始采集,如果没有,就采集范围小的。。。。
即
有些分页采集范围为
<star>........要采集内容1。。。。<zhjiant>.....<要采集内容2。。。。。<end>
有些分页采集范围为:
<star>........要采集内容1。。。。<zhjiant> 。。。。。。没有<end>了 ...
要采集这样的页面,不用正则能实现么??应怎么设置? 你这种应该是不同模板的网页,这种基本上要用到正则,正则比较容易实现,其它的方法还没有想到。 在本例中。。我想这样设置正则。。
<star>[?(content).*?]<end>|<star>[?(content).*?]<zhjiant>这样
老大指教
[ 本帖最后由 sslck 于 2008-10-23 23:08 编辑 ] 我的做法一般是这样:
<star>........要采集内容1。。。。<zhjiant>.....<要采集内容2。。。。。<end>……<biaoji>
我采集从 <star> 到oji>
然后将<end>(*)<bia替换为<end> 自己解决了。。谢谢
页:
[1]