请教采集数据规则
本帖最后由 whbi 于 2015-8-24 17:28 编辑http://www.fjsafety.gov.cn/servicecenter/licence.aspx?unitname=%b8%a3%bd%a8%e4%d8%d6%de%cd%e5%c2%c8%bc%ee%b9%a4%d2%b5%d3%d0%cf%de%b9%ab%cb%be
想采集 红色标题部分 内容 按照蓝色标题的 数据项
另外查询条件能否做到人工输入部分自动生成链接
谢谢
我采用前后截取的方式采集会出现重复采集的情况
明白了。。。。。 用正则采集,然后把整段要采的代码复制出来然后把要采的数据用[参数]代替就可以采了 真的好。。。 <!--主体部分-->
<div class="main">
<!--位置-->
<div class='seat_h'><a href='http://www.fjsafety.gov.cn'>主页</a> > <span><a href='/servicecenter/'>服务中心</a> > </span><span><a href='/servicecenter/licence.aspx' class='clo_org'>危险化学品安全生产评价许可证</a></span> > <span >正文</span></div>
<div class="list">
<div class="seach_bod o_h">
证书编号:<input name="txt_certno" type="text" id="txt_certno" class="input" />
企业全称:<input name="txt_unitname" type="text" value="福建湄洲湾氯碱工业有限公司" id="txt_unitname" class="input_w" /> <input type="submit" name="btnsel" value="查 询" id="btnsel" class="btn" /></div>
<div class="spxm_w">
<div class="h_line o_h">
<div class="w1_2" >证书编号</div>
<div class="w1_2">企业全称 </div>
<div class="w1_2">许可范围</div>
<div class="w1_3 ">有限期从</div>
<div class="w1_3">有限期至</div>
<div class="w1_3 bg_none">备注</div>
</div>
<ul>
<li>
<div class="w1_2">(闽)WH安许证字〔2005〕000056(换)号</div>
<div class="w1_2">福建湄洲湾氯碱工业有限公司</div>
<div class="w1_2">氢氧化钠(液碱、固碱折100%)8万吨/年、盐酸(32%)1.8万吨/年、液氯2.8万吨/年、环氧丙烷4万吨/年、次氯酸钠3万吨/年、硫酸(75%)0.16万吨/年、乙炔1万吨/年、氢气0.2万吨/年、甲醛10万吨/年、1,4—丁炔二醇3万吨/年、1,2—二氯丙烷0.3万吨/年、丁醇0.2万吨/年</div>
<div class="w1_3">2014-10-27</div>
<div class="w1_3">2017-10-26</div>
<div class="w1_3">延期3年</div>
</li>
</ul>
</div>
</div>
<div id="pages" class="pagination o_h">
<span></span></div>
</div>
<!--网站底部--> whbi 发表于 2015-8-25 13:30
主页 > 服务中心 > 危险化学品安全生产评价许可证 > 正文
绿色是要采集的数据对应项 与要采集的红色斜体部分的 标签内容一样
请教下 这里的用正则怎么写呢 谢谢 好帖还是要收藏,请继续 可以批量查询 采集 楼上做什么? 路过围观下。。。。
页:
[1]
2