请大家帮忙这个标签:国家,如何采集?
这是列表页网址:http://www.intracen.org/dbms/Leather/CLResults.Asp?DS=HS&CG=G22&CD=&PD=&PG=1&ID=19257
文章页网址:
http://www.intracen.org/dbms/Leather/Contact.Asp?DS=HS&CG=G22&CD=&PD=&PG=1&ID=19257
怎么把国家名称给采集出来呢?
文章页, 国家名称和地址紧紧连在一起. 而且地址的长度不固定 . 地址有时两行,有时三行. 所以,我认为,除非火车可以按照代码倒序查找, 否则, 我是不知道怎么把国家给剔出来.
列表页, 我觉得应该可以, 但是,我不知道如何能引用其他标签,比如公司名称, 要是能调用"公司名称",在定位"国家"就简单了. 但是我不会. 要是能调用默认页的网址也可以,但是我也不会.
求助! qiangrea a a {:4_197:} <td width="50%" valign="top" height="78" align="left"><font class="font-text-10">(*)<br>[参数]
</font></td> 回复 3# monface
谢谢解答.
但是有疑问, 问题没有解决.
您说的, 是普通办法采集, td width="50%" valign="top" height="78" align="left"><font class="font-text-10">(*)<br> 开始, </font></td> 这个结束吗? 这样是不行的, 因为, 这样采集出来的内容有可能包含一部分地址文字在里边.而且, 国家前边的 <br> 个数是不确定的,有时候2行,有时候三行. 所以, 这样是不成功的.
本人对正则采集一窍不通, 不过我也试过了, 将
<td width="50%" valign="top" height="78" align="left"><font class="font-text-10">(*)<br>[参数]
</font></td>
放入正则表达式, 右边写[参数1] 产生的结果也是包含一段地址的国家, 也是不成功的.
希望继续帮我看看 来,好人做到底,我QQ:67970951 谢谢楼上的啦, 解决了.
使用的排出的办法.
先假设有五行, 就派出那个<br>
然后排除4行,
在排除3行,最后排除1行,最后剩下的就是国家了.
页:
[1]