aiyboy 发表于 2011-7-4 16:35:20

火车采集器2010SP3免费版 不能采集含有";"符号的,求解决方法.

[使用版本] 火车采集器2010SP3免费版发布LocoySpiderV2010SP3_Free_Build2011-05-20
[网址] http://www.shxda.gov.cn/web/nunbersearch/medicalworkcomshow.asp?licence=晋010121&name=鍖荤枟鍣ㄦ?缁忚惀浼佷笟鍩烘湰鎯呭喌鏌ヨ?[源码] ]<td height="25" align="center" bgcolor="#E8E6E1" class="stylez7">许可证号</td>
                                  <td width="36%" class="stylez3">&nbsp;

晋010121</td>

[采集项目] 晋010121

[开始字串] <td height="25" align="center" bgcolor="#E8E6E1" class="stylez7">许可证号</td>
                                  <td width="36%" class="stylez3">&nbsp;
[结束字串] </td>
因采集字串中含有";"符号,采集内容为空.
求解决方法

303718 发表于 2011-7-4 16:42:45

为空不是这个符号问题。可能是你规则匹配不对或者是编码没有选择正确

aiyboy 发表于 2011-7-4 18:02:29

你好,多次更改编码,并将网址改为“http://www.shxda.gov.cn/web/nunbersearch/medicalworkcomshow.asp?licence=晋010106”

[开始字串]<td width="36%" class="stylez3">&      [结束字串]   ;         [结果] nbsp

[开始字串]<td width="36%" class="stylez3">&      [结束字串]   ;晋      [结果] 无值

rkcms 发表于 2011-7-7 12:53:34

是你采集的内容里有&nbsp;
这里关键的不是;号,而是&这字符,这是提交的分割符号,只要采集的内容里有&就会自动被分割了,&之后的内容就发布不上去,这是个BUG
页: [1]
查看完整版本: 火车采集器2010SP3免费版 不能采集含有";"符号的,求解决方法.