xguanglong 发表于 2011-9-1 20:00:17

求救 内容替换的通配符问题

<img src="/images/IA31-16_files/logo.jpg />
<img src="/images/IA31-16_files/111.jpg />
<img src="images/IA31-16_files/222.jpg />
<img src="/images/IA31-16_files/fangwei.jpg />


<img src="/images/IA32-19_files/logo.jpg />
<img src="/images/IA32-19_files/333.jpg />
<img src="images/IA32-19_files/444.jpg />
<img src="/images/IA32-19_files/fangwei.jpg />


<img src="/images/IA33-19_files/logo.jpg />
<img src="/images/IA33-19_files/555.jpg />
<img src="images/IA33-19_files/666.jpg />
<img src="/images/IA33-19_files/fangwei.jpg />

……

上面举例了三个页面的三组图片。由于最后一个fangwei.jpg都是同一张图片,不想采集的时候多次下载。

我的操作是:
1、在下载文件排除列表中,排除了 fangwei

2、在采集内容的时候,进行了内容替换。我写的规则是 /images/(*)_files/fangwei.jpg 替换为/images/goods/intro/fangwei.jpg

但是用了这个通配符后,每个页面的前面三个图片都直接被过滤掉了,采集出来的结果都是 <img src=="/images/goods/intro/fangwei.jpg" />

按照我的理解,应该这个规则不是到通配符就结束了的,怎么会把前面两个图片都过滤了呢,通配符后面还有其他内容需要匹配的啊?


如果我写的不对,那内容替换规则应该怎么写?

我预期的采集结果应该是下面的,只是最后的图片路径被改变了

<img src="/images/IA31-16_files/logo.jpg” />
<img src="/images/IA31-16_files/111.jpg” />
<img src="images/IA31-16_files/222.jpg” />
<img src="/images/goods/intro/fangwei.jpg“ />


<img src="/images/IA32-19_files/logo.jpg” />
<img src="/images/IA32-19_files/333.jpg” />
<img src="images/IA32-19_files/444.jpg” />
<img src="/images/goods/intro/fangwei.jpg“ />


<img src="/images/IA33-19_files/logo.jpg” />
<img src="/images/IA33-19_files/555.jpg” />
<img src="images/IA33-19_files/666.jpg” />
<img src="/images/goods/intro/fangwei.jpg“ />

xguanglong 发表于 2011-9-1 20:11:58

有没有人帮忙看看啊 谢谢咯

xguanglong 发表于 2011-9-1 20:25:52

只是用到了通配符 没有用到[参数] 的哦

流浪侠女 发表于 2011-9-2 09:06:29


你这种写法肯定不对 ,/image 是以第一个这个为准啊,也就是第一张图片地址里的这个为准 所以前面的图片都被排除了

流浪侠女 发表于 2011-9-2 09:08:34

<img src="/images/(*)/fangwei.jpg />替换为替换为<img src="images/goods/intro/fangwei.jpg"/>

xguanglong 发表于 2011-9-2 10:56:22

回复 5# 流浪侠女


斑竹你的 <img src="/images/(*)/fangwei.jpg /> 和我的<img src="/images/(*)_files/fangwei.jpg /> 没区别啊?

就是前面的图片也会被排除掉,不知道为什么哦

难道火车头程序有这个过滤的bug?
页: [1]
查看完整版本: 求救 内容替换的通配符问题