发新话题
打印

[3.2版] 采集的结果会将原代码中所有原代码中有引号的地方,自动变为双引号,这是怎么回事?

采集的结果会将原代码中所有原代码中有引号的地方,自动变为双引号,这是怎么回事?

所有原代码中有引号的地方,会自动变为双引号
例如 <a href=""/word/53776.aspx"" title=""X9241"" style=""text-decoration:underline;color:blue"">

另外,原代码中本来有一段空白的比如“<p>  去年,”
它会自动加上空格符号变为“<p>      去年”

这样子导致我不能发布,很郁闷,这是啥原因?

而且我明明把<table><tr><td> 这样的标签排除了
可结果中还是有

<table align=""left"">
<tbody>
<tr>
<td id=""Adimg""></td></tr></tbody></table>

[ 本帖最后由 windtime 于 2008-7-19 10:22 编辑 ]

TOP

注意看一下你要采的那个网站,火车头是不可能会变的。有的网站在采集的时候可能会有变化的,那是因为人家动态生成防集的。所以。你在写规则的时候多判 定些条件
火车头商业版购买与咨询、火车高难度采集、全站采集入库服务、采集规则定制、web在线发布、入库模块定制等业务、大家多多支持呀!联系QQ:86020004
┏┄┄┄┄站长交流中心┄┄┄┄┓
┇ 欢迎大家加入以下群,此群组主要为各位从事计算机爱好者服务欢迎各位高手加盟共同学习QQ群號:7830012  4671518┇

TOP

请将你的规则传上来

TOP

大家帮忙看看
我采集另外一个网站是可以入库的
可能是这个网站防止采集了
我该怎么改呢?
附件: 您所在的用户组无法下载或查看附件

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.179340 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 01:27 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档