|
本帖最后由 regid2010 于 2010-11-9 10:56 编辑
发现了 火车头采集规则不足的地方! 希望重视 和 改进!
1. 发现火车头在 设置采集规则 设置标签 的时候:
如果 勾选了 : 去除首尾空白字符 和 换行|Tab \r\n\t
就会把 上下行 内容 挤在一起 写成一行。这样很不舒服。
比如: 采集页的内容勾选了 : 去除首尾空白字符 和 换行|Tab \r\n\t
之后变成了:
小明小东小红
这不是我要的结果!我希望的结果是:小明 小东 小红
写成一行,而且彼此之间用一个空格符隔开或其他字符隔开也行如 小明|小东|小红
这就是 第一个 问题: 没法过滤 多余空格及多余空行 而 只保留一个空格 和 删除掉 所有的空白行
我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了
希望能 增强这 方面
2. 希望有个 内容判断选择 功能:
如 采集页 有的是 代码1:- <tr>
- <th scope="row" valign=top>制片:</th>
- <td>
- Darla K. Anderson ...[<a href="#" onclick="return showDialogMsg(this,'制片','Darla K. Anderson ....producer<br>Kevin Reher ....producer');">更多</a>]
- </td>
- </tr>
复制代码 有的是 代码2:- <tr>
- <th scope="row" valign=top>制片:</th>
- <td>
- Darla K. Anderson </td>
- </tr>
复制代码 我想 提取 制片人 这两段代码 中 提取 比较全的 内容。
代码1 应该提取 <a (*)> 与 </a>之间的内容
代码2 应该提取:
<tr>
<th scope="row" valign=top>制片:</th>
<td>
和
</td>
</tr>
之间的内容
这就需要判断了。 当存在 标签 <a (*)>(*)</a> 就应该取其 之间内容
而不存在 再取 其他 内容。
这就没法设置了。 头疼啊。
希望 火车头能 增强 标签 这块 的功能 |
|