yhvwcn 发表于 2010-6-10 12:37:05

是个难题,不是一般人能搞定的,特此拿出来讨论下

本帖最后由 yhvwcn 于 2010-6-13 10:36 编辑

现在不是好多商城都有N多物品,这时就有一个问题,同一个物品会有几种价格,比如说一种是单纯的价格,一种是价格加积分而此时如果采集下来就是两个同样的商品,不解,我想到的就是在采集网址时过滤掉,而这里不支持正则,如图设置

这里面写的代码如下:
<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" /><span class="title">(*)</span></a>               
                                                        <p class='ipr'><span class="hl2">(*).00</span></p> <p class="brand">
                                                                (*)</p>
                                                       
                                                </li>
如果支持正则,我想也就好办了,与此不一样的一定不会采集,现在问题是上面这样写与不写感觉好像一样,会把下面我不想要的这种也采集进来,起不到过滤的作用:<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" /><span class="title">(*)</span></a>
                                                        <p class='opr'><del>(*).00</del></p>
                                                        <p class='npr'><span class="hl2">(*).00</span><span class='hl'>&#43;(*)积分</span></p> <p class="brand">
                                                                (*)</p>
                                                        <p class='point'>积分</p>
                                                </li>
如果支持词语过滤也好办,就把我上面红色标明的过滤掉也不会采,因为上下两种可以说完全不一样,可就是不认识

yhvwcn 发表于 2010-6-11 08:22:36

是不是太难了,所以没有人讨论下,回答下呢

avdoo 发表于 2010-6-11 17:57:03

正则替换, 参数1 参数2, 留一个.

yhvwcn 发表于 2010-6-12 16:49:54

本帖最后由 yhvwcn 于 2010-6-12 16:51 编辑

这个地址不支持正则的,要是支持也就好办了
要不自动获取,要不 手动填写链接地址规则都没有用

<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" /><span class="title">(*)</span></a>
                                                      
                                                      <p class='ipr'><span class="hl2">(*).00</span></p> <p class="brand">
                                                                (*)</p>
                                                      
                                                </li
用上面这种写法,会把下面的这种也一起采进来,但是正则就好办,可网址采集里面不支持正则。。。。。。。。。。。。。。。。。。。。
<li><a target="_blank" href="[参数]" title="(*)"><img

src="(*)" alt="(*)" /><span class="title">(*)</span></a>
                                                      <p class='opr'><del>(*)</del></p>
                                                      <p class='npr'><span class="hl2">(*)</span><span

class='hl'>(*)</span></p> <p class="brand">
                                                                (*)</p>
                                                      <p class='spe-point'>(*)</p>
                                                </li>
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

mdytds 发表于 2010-6-13 08:48:21

你是在采集网址的时候遇到的这个问题?
你是不是想把价格在采集网址时候一起采集下来? 价格在内容页里面没有吗?

http://product.m18.com/p-UW0006.htm
http://product.m18.com/p-UZ0166.htm

看来这2个网址是一样的商品,可你没说要采那个啊
如果你想采p-UW0006.htm
文章内容页面的地址 必须包含p-UW(*).htm

不知道能不能帮助到你
ali82ls

yhvwcn 发表于 2010-6-13 09:50:48

谢谢楼上朋友热心回答

价格可以采集下来,主要是同样的物品,会有一个是价格,一个是价格徊积分,我想把这个价格加积分的过滤掉而不采,因为这样会重复 朋友说的这个过滤行不通,因为p-UW(*).htm 这个东西是没有规律的
页: [1]
查看完整版本: 是个难题,不是一般人能搞定的,特此拿出来讨论下