是个难题，不是一般人能搞定的，特此拿出来讨论下

yhvwcn · 发表于 2010-6-10 12:37:05

本帖最后由 yhvwcn 于 2010-6-13 10:36 编辑

现在不是好多商城都有N多物品，这时就有一个问题，同一个物品会有几种价格，比如说一种是单纯的价格，一种是价格加积分而此时如果采集下来就是两个同样的商品，不解，我想到的就是在采集网址时过滤掉，而这里不支持正则，如图设置

这里面写的代码如下：
<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" />(*)</a>
(*).00 
(*)

</li>
如果支持正则，我想也就好办了，与此不一样的一定不会采集，现在问题是上面这样写与不写感觉好像一样，会把下面我不想要的这种也采集进来，起不到过滤的作用：<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" />(*)</a>
<del>(*).00</del>
(*).00+(*)积分 
(*)
积分
</li>
如果支持词语过滤也好办，就把我上面红色标明的过滤掉也不会采，因为上下两种可以说完全不一样，可就是不认识

yhvwcn · 发表于 2010-6-11 08:22:36

是不是太难了，所以没有人讨论下，回答下呢

avdoo · 发表于 2010-6-11 17:57:03

正则替换, 参数1 参数2, 留一个.

yhvwcn · 发表于 2010-6-12 16:49:54

本帖最后由 yhvwcn 于 2010-6-12 16:51 编辑

这个地址不支持正则的，要是支持也就好办了
要不自动获取，要不手动填写链接地址规则 都没有用

<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" />(*)</a>

 (*).00 
 (*)

 </li
用上面这种写法，会把下面的这种也一起采进来，但是正则就好办，可网址采集里面不支持正则。。。。。。。。。。。。。。。。。。。。
<li><a target="_blank" href="[参数]" title="(*)"><img

src="(*)" alt="(*)" />(*)</a>
 <del>(*)</del>
 (*)(*) 
 (*)
 (*)
 </li>
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

mdytds · 发表于 2010-6-13 08:48:21

你是在采集网址的时候遇到的这个问题?
你是不是想把价格在采集网址时候一起采集下来? 价格在内容页里面没有吗?

http://product.m18.com/p-UW0006.htm
http://product.m18.com/p-UZ0166.htm

看来这2个网址是一样的商品,可你没说要采那个啊
如果你想采p-UW0006.htm
文章内容页面的地址必须包含p-UW(*).htm

不知道能不能帮助到你

yhvwcn · 发表于 2010-6-13 09:50:48

谢谢楼上朋友热心回答

价格可以采集下来，主要是同样的物品，会有一个是价格，一个是价格徊积分，我想把这个价格加积分的过滤掉而不采，因为这样会重复朋友说的这个过滤行不通，因为p-UW(*).htm 这个东西是没有规律的

帐号		自动登录	找回密码
密码			加入会员

是个难题，不是一般人能搞定的，特此拿出来讨论下

本帖子中包含更多资源