火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3569|回复: 4

求助:这样的代码如何截取?

[复制链接]
发表于 2015-12-15 07:42:40 | 显示全部楼层 |阅读模式
本帖最后由 qwerzxcvtfcyts 于 2015-12-15 07:44 编辑

每页有10条信息,每条信息里有5项,我已经设置了提取规则。目前能提取,但是,每条信息里,“页数”这个字段,出现了2次,并且前后源代码都一样,导致运行采集后,每页采集到了20条信息,变成了原始数据的2倍。我把代码贴上,请高手帮一下,如何排除重复的?



                <input type="hidden" id="memo3" name="f[3].memo" value="<TABLE><TR><TD><IMG height=110 alt=封面 src='http://lib.jxufe.edu.cn:8000/rewriter/DUXIU/http/tmhbnudq9ctwht9bnl/coverNew/CoverNew.dll?iid=646662686969626565695997A8AB9CA859643430333037363133' width=75 border=1></TD><TD>作者:柳宁,张珂编著  页数:39  出版社:哈尔滨:黑龙江少年儿童出版社  出版日期:2013.10  <br>简介:这是一套全景式的情境认知绘本……  <br>主题词:载重汽车-儿童读物  <br></TD></TR></TBODY></TABLE>">



     </table>
作者:柳宁,张珂编著  页数:39  出版社:哈尔滨:黑龙江少年儿童出版社  出版日期:2013.10  <br>简介:这是一套全景式的情境认知绘本……  <br>主题词:载重汽车-儿童读物  <br> <b>分类</b>: <span id=m_fl><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=19">交通运输</a>-><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=1904">公路运输</a>-><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=190405">汽车工程</a>-><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=19040509">各种汽车</a></span><br>


</TABLE>

 楼主| 发表于 2015-12-15 07:46:52 | 显示全部楼层
以上代码是每页10条信息中,其中一条的代码。可以看到,在一条信息中,“页数”这个项目出现了2次。而且每次前后的代码都是相同的,导致每条信息一次循环,提取2次页数。

如何能屏蔽一次提取?
发表于 2015-12-15 08:00:37 | 显示全部楼层
把提取区域扩大些来截取
 楼主| 发表于 2015-12-15 08:04:29 | 显示全部楼层
303718 发表于 2015-12-15 08:00
把提取区域扩大些来截取

有偿解决这个问题,多少钱。可以的话立即付费。我在单位不允许用QQ。
 楼主| 发表于 2015-12-15 09:56:56 | 显示全部楼层
[url=]已经研究解决。其实很简单,就是利用“内容截取”这一项。在已“前后截取“的基础上,再次提取局部内容。[/url]

[url=]供他人参考。[/url]
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-24 22:51

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表