火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2230|回复: 5

是个难题,不是一般人能搞定的,特此拿出来讨论下

[复制链接]
发表于 2010-6-10 12:37:05 | 显示全部楼层 |阅读模式
本帖最后由 yhvwcn 于 2010-6-13 10:36 编辑

现在不是好多商城都有N多物品,这时就有一个问题,同一个物品会有几种价格,比如说一种是单纯的价格,一种是价格加积分  而此时如果采集下来就是两个同样的商品,不解,我想到的就是在采集网址时过滤掉,而这里不支持正则,如图设置

这里面写的代码如下:
<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" /><span class="title">(*)</span></a>               
                                                        <p class='ipr'><span class="hl2">(*).00</span></p> <p class="brand">
                                                                (*)</p>
                                                       
                                                </li>
如果支持正则,我想也就好办了,与此不一样的一定不会采集,现在问题是上面这样写与不写感觉好像一样,会把下面我不想要的这种也采集进来,起不到过滤的作用:<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" /><span class="title">(*)</span></a>
                                                        <p class='opr'><del>(*).00</del></p>
                                                        <p class='npr'><span class="hl2">(*).00</span><span class='hl'>&#43;(*)积分</span></p> <p class="brand">
                                                                (*)</p>
                                                        <p class='point'>积分</p>
                                                </li>
如果支持词语过滤也好办,就把我上面红色标明的过滤掉也不会采,因为上下两种可以说完全不一样,可就是不认识

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2010-6-11 08:22:36 | 显示全部楼层
是不是太难了,所以没有人讨论下,回答下呢
发表于 2010-6-11 17:57:03 | 显示全部楼层
正则替换, 参数1 参数2, 留一个.
 楼主| 发表于 2010-6-12 16:49:54 | 显示全部楼层
本帖最后由 yhvwcn 于 2010-6-12 16:51 编辑

这个地址不支持正则的,要是支持也就好办了
要不自动获取,要不 手动填写链接地址规则  都没有用

<li><a target="_blank" href="[参数]" title="(*)"><img src="(*)" alt="(*)" /><span class="title">(*)</span></a>
                                                        
                                                        <p class='ipr'><span class="hl2">(*).00</span></p> <p class="brand">
                                                                (*)</p>
                                                        
                                                </li
用上面这种写法,会把下面的这种也一起采进来,但是正则就好办,可网址采集里面不支持正则。。。。。。。。。。。。。。。。。。。。
<li><a target="_blank" href="[参数]" title="(*)"><img

src="(*)" alt="(*)" /><span class="title">(*)</span></a>
                                                        <p class='opr'><del>(*)</del></p>
                                                        <p class='npr'><span class="hl2">(*)</span><span

class='hl'>(*)</span></p> <p class="brand">
                                                                (*)</p>
                                                        <p class='spe-point'>(*)</p>
                                                </li>
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
发表于 2010-6-13 08:48:21 | 显示全部楼层
你是在采集网址的时候遇到的这个问题?
你是不是想把价格在采集网址时候一起采集下来? 价格在内容页里面没有吗?

http://product.m18.com/p-UW0006.htm
http://product.m18.com/p-UZ0166.htm

看来这2个网址是一样的商品,可你没说要采那个啊
如果你想采p-UW0006.htm
文章内容页面的地址 必须包含p-UW(*).htm

不知道能不能帮助到你
 楼主| 发表于 2010-6-13 09:50:48 | 显示全部楼层
谢谢楼上朋友热心回答

价格可以采集下来,主要是同样的物品,会有一个是价格,一个是价格徊积分,我想把这个价格加积分的过滤掉而不采,因为这样会重复 朋友说的这个过滤行不通,因为p-UW(*).htm 这个东西是没有规律的
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-19 01:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表