火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5046|回复: 1

请问以下采集能通过设置正常取得作者、出版日期?

[复制链接]
发表于 2021-4-30 09:09:49 | 显示全部楼层 |阅读模式
本帖最后由 新希望2021 于 2021-4-30 18:35 编辑

目前我的配置是前后截取、标签循环匹配。碰到的问题:这样设置后,采集没有作者、出版日期的书籍,去取下一本书籍的作者、出版日期了,也就是说书籍和“作者、出版日期”没对牢。正常的做法应该是没有作者、出版日期的书籍,这2项应该填空的。
有没有办法通过正则表达式配置正常获取“作者、出版日期”信息,碰到“作者、出版日期”为空的,就填入空值(填“无”),而不是去取其他书籍的“作者、出版日期”?


html关键代码段如下
        <li>
                <a title="二十世纪中国史学名著  中国古代史" /></a>
                <div class="remtext">
                        <dl style="padding-left: 80px;">
                                <dd>主题词:古代史</dd>
                                <dd>索书号:K220.7</dd>
                        </dl>
                </div>
        </li>
        <li>
                <a title="文史资料" /></a>
                <div class="remtext">
                        <dl style="padding-left: 80px;">
                                <dd>作者:文史资料委员会编</dd>
                                <dd>出版日期:1993</dd>
                                
                                <dd>索书号:K297.4</dd>
                        </dl>
                </div>
        </li>


发表于 2021-5-6 16:42:40 | 显示全部楼层
您好,多个标签循环提取功能进行组合的时候,是按照实际提取到的数量依次组合,所以对于您这种有缺少的情况,是会发生错位匹配的情况。
建议您只选择一个标签进行循环提取,比如“书籍参数”字段,就获取一本书从第一个参数到最后一个参数的完整内容,然后其他的书籍属性字段,如“作者”“出版日期”等,就通过标签组合的方式,从“数据参数”字段获取数据,并通过数据处理中的截取或者替换等功能,得到这一本书中的完整数据,这样就不会发生错位匹配的现象了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-27 15:59

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表