火车头采集规则不足的地方!
本帖最后由 regid2010 于 2010-11-9 10:56 编辑发现了 火车头采集规则不足的地方! 希望重视 和 改进!
1.发现火车头在 设置采集规则 设置标签 的时候:
如果 勾选了 :去除首尾空白字符 和换行|Tab \r\n\t
就会把 上下行 内容 挤在一起 写成一行。这样很不舒服。
比如: 采集页的内容 小明
小东
小红勾选了 :去除首尾空白字符 和换行|Tab \r\n\t
之后变成了:
小明小东小红
这不是我要的结果!我希望的结果是:小明 小东 小红
写成一行,而且彼此之间用一个空格符隔开或其他字符隔开也行如 小明|小东|小红
这就是 第一个 问题: 没法过滤 多余空格及多余空行 而 只保留一个空格 和 删除掉 所有的空白行
我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了
希望能 增强这 方面
2.希望有个 内容判断选择 功能:
如 采集页 有的是 代码1: <tr>
<th scope="row" valign=top>制片:</th>
<td>
Darla K. Anderson...[<a href="#" onclick="return showDialogMsg(this,'制片','Darla K. Anderson....producer<br>Kevin Reher....producer');">更多</a>]
</td>
</tr>有的是 代码2: <tr>
<th scope="row" valign=top>制片:</th>
<td>
Darla K. Anderson </td>
</tr>我想 提取 制片人 这两段代码 中 提取 比较全的 内容。
代码1 应该提取 <a (*)>与 </a>之间的内容
代码2 应该提取:
<tr>
<th scope="row" valign=top>制片:</th>
<td>
和
</td>
</tr>
之间的内容
这就需要判断了。 当存在 标签 <a (*)>(*)</a>就应该取其 之间内容
而不存在 再取 其他 内容。
这就没法设置了。 头疼啊。
希望 火车头能 增强 标签 这块 的功能 我看了下 我就觉得这样的功能火车头已经实现了 只是你还没有深入了解火车头
采集规则设置有很大的关系的 我看了下 我就觉得这样的功能火车头已经实现了 只是你还没有深入了解火车头
采集规则设置有很大的关系的
专业收费采集 发表于 2010-11-9 10:55 http://bbs.locoy.com/images/common/back.gif
可 我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了
你说已经实现了? 那怎么设置? 我没找到这方面的知识 可 我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了
你说已经实现了? 那怎么设置? 我 ...
regid2010 发表于 2010-11-9 10:59 http://bbs.locoy.com/images/common/back.gif
这个就是经验了 用多了自然就知道了
你如果也像我一样 用火车头两年了 就会熟悉的 相信我 这个就是经验了 用多了自然就知道了
你如果也像我一样 用火车头两年了 就会熟悉的 相信我
专业收费采集 发表于 2010-11-9 11:06 http://bbs.locoy.com/images/common/back.gif
知道经验不足。。。
请问如何设置能分享下不。 急需解决啊。。。
页:
[1]