火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5097|回复: 7

请高手指点

[复制链接]
发表于 2007-1-9 07:13:54 | 显示全部楼层 |阅读模式
在要采集的正文内容中包含了图片,但是图片是相对地址,发现火车头采集不了,比如下例的正文:

<table width="416" border="0"><tr><td><table cellpadding="0" cellspacing="0" border="0" align="right" width="208"><tr><td bgcolor="#FFFFFF" rowspan="2"><img src="http://www.bbc.co.uk/f/t.gif" width="5" height="1" border="0" alt=""></td><td><div><img src="/worldservice/images/2006/02/20060224122127helen_and_zoe_top.jpg" width="203" height="152" alt="Helen Hu and Zoe Liu"></div></td></tr><tr><td class="caption">Do you get perks with your job?</td></tr></table><!-- st_story --><div class="storytext"><b>Helen:</b> Hello, welcome to Real English from BBC Learning English. I’m Helen.</div><p class="storytext"><b>Zoe:</b>

请问对于上面这段正文内容,相对路径的IMG(兰色加粗部分)该如何写规则呢?非常感谢
发表于 2007-1-9 11:04:21 | 显示全部楼层
替换行么
/worldservice/images/
替换成
http://www.xxx.com/worldservice/images/
 楼主| 发表于 2007-1-9 18:24:36 | 显示全部楼层
谢谢楼上的解答,我试着在"自定义连接格式"里,做如上"自定义网址替换",好象不起作用,因为上述代码存在于要采集的内容中,并非列表页面

楼上大大是不是说在内容部分里用替换?那语法怎么写呢?(*)应该可以代表后面的宽度和高度等信息,但是前面地址如何代替呢?

非常感谢
发表于 2007-1-9 18:55:21 | 显示全部楼层
我的意思就是在规则中
把内容部分加一条替换啊。。
发表于 2007-1-9 21:05:13 | 显示全部楼层
 楼主| 发表于 2007-1-9 21:09:20 | 显示全部楼层
大大能否指点下语法怎么写?如果只用一个(*)显然不行啊

除非这样:

<img src="/worldservice/images/[参数1]" (*)>

替换成

<img src="http://www.xxx.com/worldservice/images/[参数1]" (*)>

不晓得内容替换里可否用[参数1] ?

谢谢楼上大大
发表于 2007-1-9 21:53:06 | 显示全部楼层
晕。。要参数1干什么用呢?
他是相对地址。。思路不就是把地址补全么。。所以在内容规则中加一条替换

/worldservice/images/
替换成
http://www.xxx.com/worldservice/images/
应该可以吧
PS:表叫大大,偶也刚接触采集几天而已,而且偶还年轻:loveliness:
发表于 2007-1-10 14:31:23 | 显示全部楼层
火车有自动探测网址的功能。举个简单的例子,当你采集的文章中包含图片,且图片是网址最后一级目录(跟html同级而文章的网址又是按日期存储的,所以这个网址是一直变的),在这种情况下你是没办法替换的,你可以试试不管他直接采集到cms中,可是当你采集到cms中的时候你会发现图片的很好的显示着!
大家不防测试下看,至少我的是这样的。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 02:01

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表