whbi 发表于 2015-8-24 17:27:18

请教采集数据规则

本帖最后由 whbi 于 2015-8-24 17:28 编辑

http://www.fjsafety.gov.cn/servicecenter/licence.aspx?unitname=%b8%a3%bd%a8%e4%d8%d6%de%cd%e5%c2%c8%bc%ee%b9%a4%d2%b5%d3%d0%cf%de%b9%ab%cb%be
想采集 红色标题部分 内容 按照蓝色标题的 数据项


另外查询条件能否做到人工输入部分自动生成链接
谢谢
我采用前后截取的方式采集会出现重复采集的情况


toadll 发表于 2015-8-25 02:20:03

明白了。。。。。

303718 发表于 2015-8-25 08:07:06

用正则采集,然后把整段要采的代码复制出来然后把要采的数据用[参数]代替就可以采了

hurstbreezee 发表于 2015-8-25 12:07:32

真的好。。。

whbi 发表于 2015-8-25 13:30:54

   <!--主体部分-->
    <div class="main">
    <!--位置-->
    <div class='seat_h'><a href='http://www.fjsafety.gov.cn'>主页</a> > <span><a href='/servicecenter/'>服务中心</a> > </span><span><a href='/servicecenter/licence.aspx' class='clo_org'>危险化学品安全生产评价许可证</a></span> > <span >正文</span></div>
    <div class="list">
      <div class="seach_bod o_h">
      证书编号:<input name="txt_certno" type="text" id="txt_certno" class="input" />
      企业全称:<input name="txt_unitname" type="text" value="福建湄洲湾氯碱工业有限公司" id="txt_unitname" class="input_w" /> <input type="submit" name="btnsel" value="查 询" id="btnsel" class="btn" /></div>
   
      <div class="spxm_w">
            <div class="h_line o_h">
                <div class="w1_2" >证书编号</div>
                <div class="w1_2">企业全称 </div>
               <div class="w1_2">许可范围</div>
                  
                  <div class="w1_3 ">有限期从</div>
                <div class="w1_3">有限期至</div>
                <div class="w1_3 bg_none">备注</div>
               
            </div>
            
                  <ul>
                        <li>
                     <div class="w1_2">(闽)WH安许证字〔2005〕000056(换)号</div>
                        <div class="w1_2">福建湄洲湾氯碱工业有限公司</div>
                        <div class="w1_2">氢氧化钠(液碱、固碱折100%)8万吨/年、盐酸(32%)1.8万吨/年、液氯2.8万吨/年、环氧丙烷4万吨/年、次氯酸钠3万吨/年、硫酸(75%)0.16万吨/年、乙炔1万吨/年、氢气0.2万吨/年、甲醛10万吨/年、1,4—丁炔二醇3万吨/年、1,2—二氯丙烷0.3万吨/年、丁醇0.2万吨/年</div>
                        
                        <div class="w1_3">2014-10-27</div>
                        <div class="w1_3">2017-10-26</div>
                        <div class="w1_3">延期3年</div>
                        </li>
                  </ul>
               
      </div>
    </div>
   <div id="pages" class="pagination o_h">
      <span></span></div>
    </div>
   
<!--网站底部-->

whbi 发表于 2015-8-25 13:32:07

whbi 发表于 2015-8-25 13:30
主页 > 服务中心 > 危险化学品安全生产评价许可证 > 正文
   
         


绿色是要采集的数据对应项 与要采集的红色斜体部分的 标签内容一样
请教下 这里的用正则怎么写呢 谢谢

xiaowenlg 发表于 2015-8-25 17:22:10

好帖还是要收藏,请继续

huayi521 发表于 2015-8-26 09:19:46

可以批量查询 采集

小木飞刀 发表于 2015-8-26 17:51:49

楼上做什么?

76027551 发表于 2015-8-27 00:49:42

路过围观下。。。。
页: [1] 2
查看完整版本: 请教采集数据规则