请问以下采集能通过设置正常取得作者、出版日期?
本帖最后由 新希望2021 于 2021-4-30 18:35 编辑目前我的配置是前后截取、标签循环匹配。碰到的问题:这样设置后,采集没有作者、出版日期的书籍,去取下一本书籍的作者、出版日期了,也就是说书籍和“作者、出版日期”没对牢。正常的做法应该是没有作者、出版日期的书籍,这2项应该填空的。
有没有办法通过正则表达式配置正常获取“作者、出版日期”信息,碰到“作者、出版日期”为空的,就填入空值(填“无”),而不是去取其他书籍的“作者、出版日期”?
html关键代码段如下
<li>
<a title="二十世纪中国史学名著中国古代史" /></a>
<div class="remtext">
<dl style="padding-left: 80px;">
<dd>主题词:古代史</dd>
<dd>索书号:K220.7</dd>
</dl>
</div>
</li>
<li>
<a title="文史资料" /></a>
<div class="remtext">
<dl style="padding-left: 80px;">
<dd>作者:文史资料委员会编</dd>
<dd>出版日期:1993</dd>
<dd>索书号:K297.4</dd>
</dl>
</div>
</li>
您好,多个标签循环提取功能进行组合的时候,是按照实际提取到的数量依次组合,所以对于您这种有缺少的情况,是会发生错位匹配的情况。
建议您只选择一个标签进行循环提取,比如“书籍参数”字段,就获取一本书从第一个参数到最后一个参数的完整内容,然后其他的书籍属性字段,如“作者”“出版日期”等,就通过标签组合的方式,从“数据参数”字段获取数据,并通过数据处理中的截取或者替换等功能,得到这一本书中的完整数据,这样就不会发生错位匹配的现象了
页:
[1]