heraldic 发表于 2017-1-21 13:44:03

求助关于采集规则的问题

源html文件都是有规律的格式段,比如有 姓名、年龄、性别、籍贯,
都是按照这个顺序排列的

但是有某一段数据(第N组),缺少 “年龄”信息,结果我设置了规则,提取到第N+1组的年龄信息,出现了数据错位的情形

请问我怎么设置采集规则?

谢谢

hrj3251 发表于 2017-1-21 15:21:32

要看了网址才知道

qiandaoke 发表于 2017-1-21 15:25:41

应该是你规则写的有问题一般不会出现错位的,该字段没有的会自动跳过的

heraldic 发表于 2017-1-21 23:02:02

hrj3251 发表于 2017-1-21 15:21
要看了网址才知道

<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')"><img src="http://*.*.*.*:81/01/diskfi/fi75/26/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/8.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')">《英国维新史》</a>
                               
                        </p>
            <p id="checkssreader10327654" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                       <p><b>出版日期:</b> 光绪29年</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')"><img src="http://*.*.*.*:81/01/diskei/ei14/10/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')">《伊犁文牍》</a>
                               
                        </p>
            <p id="checkssreader10220192" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 伊犁将军咨送原卷</p>
                <p><b>出版日期:</b> 光绪1年11月</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')"><img src="http://*.*.*.*:81/03/diskel/el11/27/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')">《兹云桥》</a>
                               
                        </p>
            <p id="checkssreader10229402" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 乐崇辉</p>
                <p><b>出版日期:</b> 佛历2539腊月初8</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0B">哲学、宗教图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

heraldic 发表于 2017-1-21 23:05:55

就是这样的代码片段,有的片段中少 “作者”,有的有,结果是作者错位了-----没有 作者 的记录,用了后面一条记录的“作者”

<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10853928,0)" onmouseover="checkSSReader('checkssreader10853928')"><img src="http://127.0.0.1:98/03/diskbap/bap57/05/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/6.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10853928,0)" onmouseover="checkSSReader('checkssreader10853928')">《新译蒙古地志》</a>
                               
                        </p>
            <p id="checkssreader10853928" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 下村修介</p>
                <p><b>出版日期:</b> 光绪29年03月</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')"><img src="http://127.0.0.1:98/01/diskfi/fi75/26/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/8.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')">《英国维新史》</a>
                               
                        </p>
            <p id="checkssreader10327654" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                       <p><b>出版日期:</b> 光绪29年</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')"><img src="http://127.0.0.1:98/01/diskei/ei14/10/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')">《伊犁文牍》</a>
                               
                        </p>
            <p id="checkssreader10220192" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 伊犁将军咨送原卷</p>
                <p><b>出版日期:</b> 光绪1年11月</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')"><img src="http://127.0.0.1:98/03/diskel/el11/27/cover.jpg" width="104" height="131" border="0"onerror="javascript:this.src='/temp/4.jpg'" /></a>
                </div>               
      <div class="box_r_r">
              <p class="biaoti">
                      <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                      <ahref='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')">《兹云桥》</a>
                               
                        </p>
            <p id="checkssreader10229402" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 乐崇辉</p>
                <p><b>出版日期:</b> 佛历2539腊月初8</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0B">哲学、宗教图</p>
            
                       
                       
                       
                       
                       
                        </dl>
      </div>
    </div>
</div>       
                       

heraldic 发表于 2017-1-21 23:07:55

qiandaoke 发表于 2017-1-21 15:25
应该是你规则写的有问题一般不会出现错位的,该字段没有的会自动跳过的 ...

已经补充了代码,请求指点,谢谢

heraldic 发表于 2017-1-22 08:34:36

补充代码的回帖,要求审核,没了

qiandaoke 发表于 2017-2-25 10:35:04

可以联系我定做
页: [1]
查看完整版本: 求助关于采集规则的问题