qwerzxcvtfcyts 发表于 2015-12-15 07:42:40

求助:这样的代码如何截取?

本帖最后由 qwerzxcvtfcyts 于 2015-12-15 07:44 编辑

每页有10条信息,每条信息里有5项,我已经设置了提取规则。目前能提取,但是,每条信息里,“页数”这个字段,出现了2次,并且前后源代码都一样,导致运行采集后,每页采集到了20条信息,变成了原始数据的2倍。我把代码贴上,请高手帮一下,如何排除重复的?





                <input type="hidden" id="memo3" name="f.memo" value="<TABLE><TR><TD><IMG height=110 alt=封面 src='http://lib.jxufe.edu.cn:8000/rewriter/DUXIU/http/tmhbnudq9ctwht9bnl/coverNew/CoverNew.dll?iid=646662686969626565695997A8AB9CA859643430333037363133' width=75 border=1></TD><TD>作者:柳宁,张珂编著页数:39出版社:哈尔滨:黑龙江少年儿童出版社出版日期:2013.10<br>简介:这是一套全景式的情境认知绘本……<br>主题词:载重汽车-儿童读物<br></TD></TR></TBODY></TABLE>">





   </table>
作者:柳宁,张珂编著页数:39出版社:哈尔滨:黑龙江少年儿童出版社出版日期:2013.10<br>简介:这是一套全景式的情境认知绘本……<br>主题词:载重汽车-儿童读物<br> <b>分类</b>: <span id=m_fl><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=19">交通运输</a>-><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=1904">公路运输</a>-><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=190405">汽车工程</a>-><a href="advsearch?channel=advsearch§year=2013&rn=50&ecode=utf-8&Field=&btype=&&fenleiID=19040509">各种汽车</a></span><br>




</TABLE>

qwerzxcvtfcyts 发表于 2015-12-15 07:46:52

以上代码是每页10条信息中,其中一条的代码。可以看到,在一条信息中,“页数”这个项目出现了2次。而且每次前后的代码都是相同的,导致每条信息一次循环,提取2次页数。

如何能屏蔽一次提取?

303718 发表于 2015-12-15 08:00:37

把提取区域扩大些来截取

qwerzxcvtfcyts 发表于 2015-12-15 08:04:29

303718 发表于 2015-12-15 08:00
把提取区域扩大些来截取

有偿解决这个问题,多少钱。可以的话立即付费。我在单位不允许用QQ。

qwerzxcvtfcyts 发表于 2015-12-15 09:56:56

已经研究解决。其实很简单,就是利用“内容截取”这一项。在已“前后截取“的基础上,再次提取局部内容。

供他人参考。
页: [1]
查看完整版本: 求助:这样的代码如何截取?