windtime 发表于 2008-7-19 10:20:09

采集的结果会将原代码中所有原代码中有引号的地方,自动变为双引号,这是怎么回事?

所有原代码中有引号的地方,会自动变为双引号
例如 <a href=""/word/53776.aspx"" title=""X9241"" style=""text-decoration:underline;color:blue"">

另外,原代码中本来有一段空白的比如“<p>  去年,”
它会自动加上空格符号变为“<p>      去年”

这样子导致我不能发布,很郁闷,这是啥原因?

而且我明明把<table><tr><td> 这样的标签排除了
可结果中还是有

<table align=""left"">
<tbody>
<tr>
<td id=""Adimg""></td></tr></tbody></table>

[ 本帖最后由 windtime 于 2008-7-19 10:22 编辑 ]

飛越無限 发表于 2008-7-19 11:16:37

注意看一下你要采的那个网站,火车头是不可能会变的。有的网站在采集的时候可能会有变化的,那是因为人家动态生成防集的。所以。你在写规则的时候多判 定些条件

rq204 发表于 2008-7-19 11:47:54

请将你的规则传上来

windtime 发表于 2008-7-19 12:23:36

大家帮忙看看
我采集另外一个网站是可以入库的
可能是这个网站防止采集了
我该怎么改呢?
页: [1]
查看完整版本: 采集的结果会将原代码中所有原代码中有引号的地方,自动变为双引号,这是怎么回事?