火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4108|回复: 7

求助关于采集规则的问题

[复制链接]
发表于 2017-1-21 13:44:03 | 显示全部楼层 |阅读模式
源html文件都是有规律的格式段,比如有 姓名、年龄、性别、籍贯,
都是按照这个顺序排列的

但是有某一段数据(第N组),缺少 “年龄”信息,结果我设置了规则,提取到第N+1组的年龄信息,出现了数据错位的情形

请问我怎么设置采集规则?

谢谢

发表于 2017-1-21 15:21:32 | 显示全部楼层
要看了网址才知道
发表于 2017-1-21 15:25:41 | 显示全部楼层
应该是你规则写的有问题  一般不会出现错位的,该字段没有的会自动跳过的
 楼主| 发表于 2017-1-21 23:02:02 | 显示全部楼层
hrj3251 发表于 2017-1-21 15:21
要看了网址才知道

<div class="gai_box clearfix">
        <!--  div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')"><img src="http://*.*.*.*:81/01/diskfi/fi75/26/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/8.jpg'" /></a>
                </div>               
        <div class="box_r_r">
                <p class="biaoti">
                        <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                        <a  href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')">《英国维新史》</a>
                               
                        </p>
            <p id="checkssreader10327654" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                         <p><b>出版日期:</b> 光绪29年</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                         
                       
                       
                       
                        </dl>
        </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--  div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')"><img src="http://*.*.*.*:81/01/diskei/ei14/10/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/4.jpg'" /></a>
                </div>               
        <div class="box_r_r">
                <p class="biaoti">
                        <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                        <a  href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')">《伊犁文牍》</a>
                               
                        </p>
            <p id="checkssreader10220192" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 伊犁将军咨送原卷</p>
                    <p><b>出版日期:</b> 光绪1年11月</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
            
                       
                         
                       
                       
                       
                        </dl>
        </div>
    </div>
</div>       
                       

                       



<div class="gai_box clearfix">
        <!--  div class="box_left">.</div>-->
    <div class="box_right Clearfix">
            <div class="box_r_l">
            <a href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')"><img src="http://*.*.*.*:81/03/diskel/el11/27/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/4.jpg'" /></a>
                </div>               
        <div class="box_r_r">
                <p class="biaoti">
                        <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
                               
                        <a  href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')">《兹云桥》</a>
                               
                        </p>
            <p id="checkssreader10229402" style="display: none"></p>
            <dl style="margin-left:20px;">
                       
                        <p><b>作者:</b> 乐崇辉</p>
                    <p><b>出版日期:</b> 佛历2539腊月初8</p>
            <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0B">哲学、宗教图</p>
            
                       
                         
                       
                       
                       
                        </dl>
        </div>
    </div>
</div>       
                       
 楼主| 发表于 2017-1-21 23:05:55 | 显示全部楼层
就是这样的代码片段,有的片段中少 “作者”,有的有,结果是作者错位了-----没有 作者 的记录,用了后面一条记录的“作者”

  1. <div class="gai_box clearfix">
  2.         <!--  div class="box_left">.</div>-->
  3.     <div class="box_right Clearfix">
  4.             <div class="box_r_l">
  5.             <a href='javascript:;' onclick="ToReadBook(10853928,0)" onmouseover="checkSSReader('checkssreader10853928')"><img src="http://127.0.0.1:98/03/diskbap/bap57/05/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/6.jpg'" /></a>
  6.                 </div>               
  7.         <div class="box_r_r">
  8.                 <p class="biaoti">
  9.                         <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
  10.                                
  11.                         <a  href='javascript:;' onclick="ToReadBook(10853928,0)" onmouseover="checkSSReader('checkssreader10853928')">《新译蒙古地志》</a>
  12.                                
  13.                         </p>
  14.             <p id="checkssreader10853928" style="display: none"></p>
  15.             <dl style="margin-left:20px;">
  16.                        
  17.                         <p><b>作者:</b> 下村修介</p>
  18.                     <p><b>出版日期:</b> 光绪29年03月</p>
  19.             <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
  20.             
  21.                        
  22.                          
  23.                        
  24.                        
  25.                        
  26.                         </dl>
  27.         </div>
  28.     </div>
  29. </div>       
  30.                        

  31.                        



  32. <div class="gai_box clearfix">
  33.         <!--  div class="box_left">.</div>-->
  34.     <div class="box_right Clearfix">
  35.             <div class="box_r_l">
  36.             <a href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')"><img src="http://127.0.0.1:98/01/diskfi/fi75/26/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/8.jpg'" /></a>
  37.                 </div>               
  38.         <div class="box_r_r">
  39.                 <p class="biaoti">
  40.                         <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
  41.                                
  42.                         <a  href='javascript:;' onclick="ToReadBook(10327654,0)" onmouseover="checkSSReader('checkssreader10327654')">《英国维新史》</a>
  43.                                
  44.                         </p>
  45.             <p id="checkssreader10327654" style="display: none"></p>
  46.             <dl style="margin-left:20px;">
  47.                        
  48.                          <p><b>出版日期:</b> 光绪29年</p>
  49.             <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
  50.             
  51.                        
  52.                          
  53.                        
  54.                        
  55.                        
  56.                         </dl>
  57.         </div>
  58.     </div>
  59. </div>       
  60.                        

  61.                        



  62. <div class="gai_box clearfix">
  63.         <!--  div class="box_left">.</div>-->
  64.     <div class="box_right Clearfix">
  65.             <div class="box_r_l">
  66.             <a href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')"><img src="http://127.0.0.1:98/01/diskei/ei14/10/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/4.jpg'" /></a>
  67.                 </div>               
  68.         <div class="box_r_r">
  69.                 <p class="biaoti">
  70.                         <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
  71.                                
  72.                         <a  href='javascript:;' onclick="ToReadBook(10220192,0)" onmouseover="checkSSReader('checkssreader10220192')">《伊犁文牍》</a>
  73.                                
  74.                         </p>
  75.             <p id="checkssreader10220192" style="display: none"></p>
  76.             <dl style="margin-left:20px;">
  77.                        
  78.                         <p><b>作者:</b> 伊犁将军咨送原卷</p>
  79.                     <p><b>出版日期:</b> 光绪1年11月</p>
  80.             <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0K">历史、地理图</p>
  81.             
  82.                        
  83.                          
  84.                        
  85.                        
  86.                        
  87.                         </dl>
  88.         </div>
  89.     </div>
  90. </div>       
  91.                        

  92.                        



  93. <div class="gai_box clearfix">
  94.         <!--  div class="box_left">.</div>-->
  95.     <div class="box_right Clearfix">
  96.             <div class="box_r_l">
  97.             <a href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')"><img src="http://127.0.0.1:98/03/diskel/el11/27/cover.jpg" width="104" height="131" border="0"  onerror="javascript:this.src='/temp/4.jpg'" /></a>
  98.                 </div>               
  99.         <div class="box_r_r">
  100.                 <p class="biaoti">
  101.                         <img src="/markbook/images/pic.gif" width="15" height="16" border="0" />                               
  102.                                
  103.                         <a  href='javascript:;' onclick="ToReadBook(10229402,0)" onmouseover="checkSSReader('checkssreader10229402')">《兹云桥》</a>
  104.                                
  105.                         </p>
  106.             <p id="checkssreader10229402" style="display: none"></p>
  107.             <dl style="margin-left:20px;">
  108.                        
  109.                         <p><b>作者:</b> 乐崇辉</p>
  110.                     <p><b>出版日期:</b> 佛历2539腊月初8</p>
  111.             <p><b>分类:</b><a class="l" href="/markbook/booklist.jsp?fenleiID=0B">哲学、宗教图</p>
  112.             
  113.                        
  114.                          
  115.                        
  116.                        
  117.                        
  118.                         </dl>
  119.         </div>
  120.     </div>
  121. </div>       
  122.                        
复制代码
 楼主| 发表于 2017-1-21 23:07:55 | 显示全部楼层
qiandaoke 发表于 2017-1-21 15:25
应该是你规则写的有问题  一般不会出现错位的,该字段没有的会自动跳过的 ...

已经补充了代码,请求指点,谢谢
 楼主| 发表于 2017-1-22 08:34:36 | 显示全部楼层
补充代码的回帖,要求审核,没了
发表于 2017-2-25 10:35:04 | 显示全部楼层
可以联系我定做
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 21:38

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表