请问以下采集能通过设置正常取得作者、出版日期？

新希望2021 · 发表于 2021-4-30 09:09:49

本帖最后由新希望2021 于 2021-4-30 18:35 编辑

目前我的配置是前后截取、标签循环匹配。碰到的问题：这样设置后，采集没有作者、出版日期的书籍，去取下一本书籍的作者、出版日期了，也就是说书籍和“作者、出版日期”没对牢。正常的做法应该是没有作者、出版日期的书籍，这2项应该填空的。
有没有办法通过正则表达式配置正常获取“作者、出版日期”信息，碰到“作者、出版日期”为空的，就填入空值（填“无”），而不是去取其他书籍的“作者、出版日期”？

html关键代码段如下
      <li>
            <a title="二十世纪中国史学名著  中国古代史" /></a>
            <div class="remtext">
                     <dl style="padding-left: 80px;">
                              <dd>主题词：古代史</dd>
                              <dd>索书号：K220.7</dd>
                     </dl>
            </div>
      </li>
      <li>
            <a title="文史资料" /></a>
            <div class="remtext">
                     <dl style="padding-left: 80px;">
                              <dd>作者：文史资料委员会编</dd>
                              <dd>出版日期：1993</dd>

                              <dd>索书号：K297.4</dd>
                     </dl>
            </div>
      </li>

leweizxl · 发表于 2021-5-6 16:42:40

您好，多个标签循环提取功能进行组合的时候，是按照实际提取到的数量依次组合，所以对于您这种有缺少的情况，是会发生错位匹配的情况。
建议您只选择一个标签进行循环提取，比如“书籍参数”字段，就获取一本书从第一个参数到最后一个参数的完整内容，然后其他的书籍属性字段，如“作者”“出版日期”等，就通过标签组合的方式，从“数据参数”字段获取数据，并通过数据处理中的截取或者替换等功能，得到这一本书中的完整数据，这样就不会发生错位匹配的现象了

帐号		自动登录	找回密码
密码			加入会员