求助关于采集规则的问题
源html文件都是有规律的格式段,比如有 姓名、年龄、性别、籍贯,都是按照这个顺序排列的
但是有某一段数据(第N组),缺少 “年龄”信息,结果我设置了规则,提取到第N+1组的年龄信息,出现了数据错位的情形
请问我怎么设置采集规则?
谢谢
要看了网址才知道 应该是你规则写的有问题一般不会出现错位的,该字段没有的会自动跳过的 hrj3251 发表于 2017-1-21 15:21
要看了网址才知道
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')"><img src="http://*.*.*.*:81/01/diskfi/fi75/26/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/8.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')">《英国维新史》</a>
</p>
<p id="checkssreader10327654" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>出版日期:</b> 光绪29年</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
</dl>
</div>
</div>
</div>
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')"><img src="http://*.*.*.*:81/01/diskei/ei14/10/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')">《伊犁文牍》</a>
</p>
<p id="checkssreader10220192" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>作者:</b> 伊犁将军咨送原卷</p>
<p><b>出版日期:</b> 光绪1年11月</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
</dl>
</div>
</div>
</div>
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')"><img src="http://*.*.*.*:81/03/diskel/el11/27/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')">《兹云桥》</a>
</p>
<p id="checkssreader10229402" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>作者:</b> 乐崇辉</p>
<p><b>出版日期:</b> 佛历2539腊月初8</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0B">哲学、宗教图</p>
</dl>
</div>
</div>
</div>
就是这样的代码片段,有的片段中少 “作者”,有的有,结果是作者错位了-----没有 作者 的记录,用了后面一条记录的“作者”
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10853928,0)" onmouseover="checkSSReader('checkssreader10853928')"><img src="http://127.0.0.1:98/03/diskbap/bap57/05/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/6.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10853928,0)" onmouseover="checkSSReader('checkssreader10853928')">《新译蒙古地志》</a>
</p>
<p id="checkssreader10853928" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>作者:</b> 下村修介</p>
<p><b>出版日期:</b> 光绪29年03月</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
</dl>
</div>
</div>
</div>
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')"><img src="http://127.0.0.1:98/01/diskfi/fi75/26/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/8.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')">《英国维新史》</a>
</p>
<p id="checkssreader10327654" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>出版日期:</b> 光绪29年</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
</dl>
</div>
</div>
</div>
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')"><img src="http://127.0.0.1:98/01/diskei/ei14/10/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')">《伊犁文牍》</a>
</p>
<p id="checkssreader10220192" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>作者:</b> 伊犁将军咨送原卷</p>
<p><b>出版日期:</b> 光绪1年11月</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
</dl>
</div>
</div>
</div>
<div class="gai_box clearfix">
<!--div class="box_left">.</div>-->
<div class="box_right Clearfix">
<div class="box_r_l">
<a href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')"><img src="http://127.0.0.1:98/03/diskel/el11/27/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
</div>
<div class="box_r_r">
<p class="biaoti">
<img src="/markbook/images/pic.gif" width="15" height="16" border="0" />
<ahref='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')">《兹云桥》</a>
</p>
<p id="checkssreader10229402" style="display: none"></p>
<dl style="margin-left:20px;">
<p><b>作者:</b> 乐崇辉</p>
<p><b>出版日期:</b> 佛历2539腊月初8</p>
<p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0B">哲学、宗教图</p>
</dl>
</div>
</div>
</div>
qiandaoke 发表于 2017-1-21 15:25
应该是你规则写的有问题一般不会出现错位的,该字段没有的会自动跳过的 ...
已经补充了代码,请求指点,谢谢 补充代码的回帖,要求审核,没了 可以联系我定做
页:
[1]