regid2010 发表于 2010-11-9 10:51:40

火车头采集规则不足的地方!

本帖最后由 regid2010 于 2010-11-9 10:56 编辑

发现了 火车头采集规则不足的地方! 希望重视 和 改进!

1.发现火车头在 设置采集规则 设置标签 的时候:
   
   如果 勾选了 :去除首尾空白字符 和换行|Tab \r\n\t
   就会把 上下行 内容 挤在一起 写成一行。这样很不舒服。

   比如: 采集页的内容 小明
小东   
小红勾选了 :去除首尾空白字符 和换行|Tab \r\n\t
之后变成了:
小明小东小红

这不是我要的结果!我希望的结果是:小明 小东 小红
写成一行,而且彼此之间用一个空格符隔开或其他字符隔开也行如 小明|小东|小红

这就是 第一个 问题: 没法过滤 多余空格及多余空行 而 只保留一个空格 和 删除掉 所有的空白行

我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了

希望能 增强这 方面

2.希望有个 内容判断选择 功能:

如 采集页 有的是 代码1:          <tr>
            <th scope="row" valign=top>制片:</th>
            <td>
                                                      Darla K. Anderson...[<a href="#" onclick="return showDialogMsg(this,'制片','Darla K. Anderson....producer<br>Kevin Reher....producer');">更多</a>]
                                                </td>
          </tr>有的是 代码2:          <tr>
            <th scope="row" valign=top>制片:</th>
            <td>
                                                      Darla K. Anderson                                                </td>
          </tr>我想 提取 制片人 这两段代码 中 提取 比较全的 内容。
代码1 应该提取 <a (*)>与 </a>之间的内容
代码2 应该提取:
<tr>
            <th scope="row" valign=top>制片:</th>
            <td>

</td>
          </tr>
之间的内容

这就需要判断了。 当存在 标签 <a (*)>(*)</a>就应该取其 之间内容
而不存在 再取 其他 内容。

这就没法设置了。 头疼啊。

希望 火车头能 增强 标签 这块 的功能

专业收费采集 发表于 2010-11-9 10:55:48

我看了下 我就觉得这样的功能火车头已经实现了 只是你还没有深入了解火车头

采集规则设置有很大的关系的

regid2010 发表于 2010-11-9 10:59:34

我看了下 我就觉得这样的功能火车头已经实现了 只是你还没有深入了解火车头

采集规则设置有很大的关系的
专业收费采集 发表于 2010-11-9 10:55 http://bbs.locoy.com/images/common/back.gif

可 我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了

你说已经实现了? 那怎么设置? 我没找到这方面的知识

专业收费采集 发表于 2010-11-9 11:06:29

可 我也考虑过了 通过 内容排除 和 内容替换 怎么设置也 实现不了

你说已经实现了? 那怎么设置? 我 ...
regid2010 发表于 2010-11-9 10:59 http://bbs.locoy.com/images/common/back.gif
这个就是经验了 用多了自然就知道了

你如果也像我一样 用火车头两年了 就会熟悉的 相信我

regid2010 发表于 2010-11-9 11:16:42

这个就是经验了 用多了自然就知道了

你如果也像我一样 用火车头两年了 就会熟悉的 相信我
专业收费采集 发表于 2010-11-9 11:06 http://bbs.locoy.com/images/common/back.gif

    知道经验不足。。。
    请问如何设置能分享下不。 急需解决啊。。。
页: [1]
查看完整版本: 火车头采集规则不足的地方!