如何采集可能有2种TAG标签的数据?
一个求职网站,其中的发布人有两种标签一种是注册用户,网站会显示他的注册名,标签为:shop-nameclass='shop-name'>用户名</a>,
一种是非注册用户,网站会自动给他取名,class='userinfo-name'>系统默认名称</a>
每个网页只显示上述2种标签中的一种。
现在我要采集这个网站的用户名,怎样判断如果有'shop-name'>标签就采集这个标签,如果有'userinfo-name'>标签则采集这个标签
我在正则里试了shop-nameclass='shop-name'>[参数]</a>是可以采集到注册用户的信息,shop-nameclass='shop-name'>[参数]</a>(*)class='userinfo-name'>[参数]</a>或者顺序倒过来就什么都采不到。
现在我用了变通的办法,就是增加了个标签名,但是看起来别扭,有办法实现一个标签名采集的功能吗?谢谢各位。
用正则采集,相关教程http://faq.locoy.com/q-992.html 网站有2种页面格式如何处理?楼上正解http://faq.locoy.com/q-992.html.多种就多设~ 303718 发表于 2015-7-2 07:51
用正则采集,相关教程http://faq.locoy.com/q-992.html
非常感谢,回头试试。
页:
[1]