火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3338|回复: 3

跪求高手!如何对单页面多标签循环采集

[复制链接]
发表于 2014-11-21 02:24:29 | 显示全部楼层 |阅读模式
本帖最后由 lz4594 于 2014-11-21 07:58 编辑

页面代码如下:
<div>
    <span>房间1</span>
    <ul>
        <li>人员1</li>
        <li>人员2</li>
        <li>人员3</li>
    </ul>
</div>

对于上述页面采集建立两个标签:【房间】、【人员】给以适当的数据提取规则,

对【人员】标签选择[该标签循环匹配],

并在[标签循环处理]中,勾选[添加为新纪录]、[循环不足的记录以第一条记录补全]。

采集测试结果如下:

【房间】:房间1
【人员】:人员1
███████████████第1条记录████████████████
【房间】:房间1
【人员】:人员2
███████████████第2条记录████████████████
【房间】:房间1
【人员】:人员3
███████████████第3条记录████████████████
结果正确。

可是实际情况遇到的是如下代码:
<div>
    <span>房间1</span>
    <ul>
        <li>人员1</li>
        <li>人员2</li>
        <li>人员3</li>
    </ul>
</div>
<div>
    <span>房间2</span>
    <ul>
        <li>人员2-1</li>
        <li>人员2-2</li>
        <li>人员2-3</li>
    </ul>
</div>
<div>
    <span>房间3</span>
    <ul>
        <li>人员3-1</li>
        <li>人员3-2</li>
        <li>人员3-3</li>
    </ul>
</div>


如果还依照原来采集方法,结果是:
【房间】:房间1
【人员】:人员1
███████████████第1条记录████████████████
【房间】:房间1
【人员】:人员2
███████████████第2条记录████████████████
【房间】:房间1
【人员】:人员3
███████████████第3条记录████████████████
【房间】:房间1
【人员】:人员2-1
███████████████第4条记录████████████████
【房间】:房间1
【人员】:人员2-2
███████████████第5条记录████████████████
【房间】:房间1
【人员】:人员2-3
███████████████第6条记录████████████████
【房间】:房间1
【人员】:人员3-1
███████████████第7条记录████████████████
【房间】:房间1
【人员】:人员3-2
███████████████第8条记录████████████████
【房间】:房间1
【人员】:人员3-3
███████████████第9条记录████████████████


不知道哪位高手能够给解答一下!
 楼主| 发表于 2014-11-21 02:34:23 | 显示全部楼层
这种情况经常会出现在一个页面有多个表格的情况下,每个表格又有自己的父级属性需要采集进数据库
发表于 2014-11-21 08:26:33 | 显示全部楼层
这种情况的火车头不支持,需要插件支持,可以联系我们定制插件处理
插件需要火车头标准版以上支持












『采集超市』专注于火车头规则、插件、模块、接口等周边产品开发!为企业和个人提供全方位的采集发布方案!
联系QQ:
官方网站:www.locoymall.com

发表于 2014-11-21 08:26:43 | 显示全部楼层
这种情况比较特殊需要做插件处理了。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 05:38

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表