sslck 发表于 2008-10-23 16:03:53

分页采集范围不同,怎么办?

哦,想采集这样内容
第一页:即有内容1又有内容2
其他分页:则只有内容1
(第一页只要将采集内容设置大点就可以同时采集内容1与内容2了。但采集内容范围扩大后,在其他分页却不适用。。)
我想设置采集内容规则为两个,一个比较大的范围以匹配第一页采集,一个比较小的范围以匹配其他页。。。采集时,设置成只要满足其中一个范围即进行匹配采集。。。当然,优行从范围大的那个开始采集,如果没有,就采集范围小的。。。。


有些分页采集范围为
<star>........要采集内容1。。。。<zhjiant>.....<要采集内容2。。。。。<end>
有些分页采集范围为:
<star>........要采集内容1。。。。<zhjiant>                        。。。。。。没有<end>了 ...

要采集这样的页面,不用正则能实现么??应怎么设置?

chenfy 发表于 2008-10-23 21:32:47

你这种应该是不同模板的网页,这种基本上要用到正则,正则比较容易实现,其它的方法还没有想到。

sslck 发表于 2008-10-23 22:44:13

在本例中。。我想这样设置正则。。

<star>[?(content).*?]<end>|<star>[?(content).*?]<zhjiant>这样

老大指教



[ 本帖最后由 sslck 于 2008-10-23 23:08 编辑 ]

sushy 发表于 2008-10-24 10:22:36

我的做法一般是这样:

<star>........要采集内容1。。。。<zhjiant>.....<要采集内容2。。。。。<end>……<biaoji>

我采集从 <star> 到oji>
然后将<end>(*)<bia替换为<end>

sslck 发表于 2008-10-25 14:28:40

自己解决了。。谢谢
页: [1]
查看完整版本: 分页采集范围不同,怎么办?