by525137 发表于 2008-8-6 11:56:56

刚刚发现火车采集器的缺点

在采集的时候发现的问题,就是标签截点问题。

比如我要采集一个层(DIV)中间的内容


<div class=asdfasdf>

内容

</div>

一般我们在标签截点里都是这样写的

在开始字符串中输入:<div class=asdfasdf>
在结束字符串中输入:</div>

最后得到的结果就是我们要的内容了。但是有时候为了美化页面也在HTML标签里加上一些样式就会想把<div class=asdfasdf>这个HTML标签也采集。可能火车采集器在开发的时候没有想到这一点。希望火车采集器更改一下,就是在采集的时候加上开始字符串的HTML代码也加上、或者加多一个判断是否加上开始字符串中HTML代码和结束字符串HTML代码

不是代码的问题啦。你们看下这图片


就是我们写好了标签之后,火车不会加上我们在图片上的代码。

[ 本帖最后由 by525137 于 2008-8-6 12:11 编辑 ]

waiwlq 发表于 2008-8-6 12:01:25

恩 是没这个功能
目前你只能连代码一起采集下来了

rq204 发表于 2008-8-6 12:05:51

没有必要,你把代码采下来也就可以了,不行了你用正则,同样可以达到效果。

ghostscat 发表于 2008-8-6 13:39:18

有了正则支持,什么问题都可以解决

pagedown231 发表于 2008-8-12 09:27:27

自己在入库的时候加上你自己需要的字符就行了啥,...

lbjyuer 发表于 2016-2-10 01:43:51

支持火车。。。。历史帖子回顾中。
页: [1]
查看完整版本: 刚刚发现火车采集器的缺点