西狂曲 发表于 2007-1-9 07:13:54

请高手指点

在要采集的正文内容中包含了图片,但是图片是相对地址,发现火车头采集不了,比如下例的正文:

<table width="416" border="0"><tr><td><table cellpadding="0" cellspacing="0" border="0" align="right" width="208"><tr><td bgcolor="#FFFFFF" rowspan="2"><img src="http://www.bbc.co.uk/f/t.gif" width="5" height="1" border="0" alt=""></td><td><div><img src="/worldservice/images/2006/02/20060224122127helen_and_zoe_top.jpg" width="203" height="152" alt="Helen Hu and Zoe Liu"></div></td></tr><tr><td class="caption">Do you get perks with your job?</td></tr></table><!-- st_story --><div class="storytext"><b>Helen:</b> Hello, welcome to Real English from BBC Learning English. I’m Helen.</div><p class="storytext"><b>Zoe:</b>

请问对于上面这段正文内容,相对路径的IMG(兰色加粗部分)该如何写规则呢?非常感谢

dalipeng 发表于 2007-1-9 11:04:21

替换行么
/worldservice/images/
替换成
http://www.xxx.com/worldservice/images/

西狂曲 发表于 2007-1-9 18:24:36

谢谢楼上的解答,我试着在"自定义连接格式"里,做如上"自定义网址替换",好象不起作用,因为上述代码存在于要采集的内容中,并非列表页面

楼上大大是不是说在内容部分里用替换?那语法怎么写呢?(*)应该可以代表后面的宽度和高度等信息,但是前面地址如何代替呢?

非常感谢

dalipeng 发表于 2007-1-9 18:55:21

:( 我的意思就是在规则中
把内容部分加一条替换啊。。

xyyfx 发表于 2007-1-9 21:05:13

:lol

西狂曲 发表于 2007-1-9 21:09:20

大大能否指点下语法怎么写?如果只用一个(*)显然不行啊

除非这样:

<img src="/worldservice/images/[参数1]" (*)>

替换成

<img src="http://www.xxx.com/worldservice/images/[参数1]" (*)>

不晓得内容替换里可否用[参数1] ?

谢谢楼上大大

dalipeng 发表于 2007-1-9 21:53:06

晕。。要参数1干什么用呢?
他是相对地址。。思路不就是把地址补全么。。所以在内容规则中加一条替换

/worldservice/images/
替换成
http://www.xxx.com/worldservice/images/
应该可以吧
PS:表叫大大,偶也刚接触采集几天而已,而且偶还年轻:loveliness: :lol

insun 发表于 2007-1-10 14:31:23

火车有自动探测网址的功能。举个简单的例子,当你采集的文章中包含图片,且图片是网址最后一级目录(跟html同级而文章的网址又是按日期存储的,所以这个网址是一直变的),在这种情况下你是没办法替换的,你可以试试不管他直接采集到cms中,可是当你采集到cms中的时候你会发现图片的很好的显示着!
大家不防测试下看,至少我的是这样的。
页: [1]
查看完整版本: 请高手指点