请大家帮忙这个标签:国家,如何采集?

csqusa 发表于 2010-4-18 10:46:44

这是列表页网址:
http://www.intracen.org/dbms/Leather/CLResults.Asp?DS=HS&CG=G22&CD=&PD=&PG=1&ID=19257
文章页网址:
http://www.intracen.org/dbms/Leather/Contact.Asp?DS=HS&CG=G22&CD=&PD=&PG=1&ID=19257

怎么把国家名称给采集出来呢?

文章页, 国家名称和地址紧紧连在一起. 而且地址的长度不固定 . 地址有时两行,有时三行. 所以,我认为,除非火车可以按照代码倒序查找, 否则, 我是不知道怎么把国家给剔出来.
列表页, 我觉得应该可以, 但是,我不知道如何能引用其他标签,比如公司名称, 要是能调用"公司名称",在定位"国家"就简单了. 但是我不会. 要是能调用默认页的网址也可以,但是我也不会.

求助!

ym163 发表于 2010-4-18 11:48:16

qiangrea a a {:4_197:}

monface 发表于 2010-4-18 11:58:59

csqusa 发表于 2010-4-18 15:36:01

回复 3# monface

谢谢解答.
但是有疑问, 问题没有解决.
您说的, 是普通办法采集, td width="50%" valign="top" height="78" align="left">(*) 开始, </td> 这个结束吗? 这样是不行的, 因为, 这样采集出来的内容有可能包含一部分地址文字在里边.而且, 国家前边的 个数是不确定的,有时候2行,有时候三行. 所以, 这样是不成功的.

本人对正则采集一窍不通, 不过我也试过了, 将
<td width="50%" valign="top" height="78" align="left">(*) [参数]
</td>
放入正则表达式, 右边写[参数1] 产生的结果也是包含一段地址的国家, 也是不成功的.
希望继续帮我看看

monface 发表于 2010-4-19 12:36:01

来,好人做到底,我QQ:67970951

csqusa 发表于 2010-4-23 16:18:27

谢谢楼上的啦, 解决了.
使用的排出的办法.
先假设有五行, 就派出那个 
然后排除4行,
在排除3行,最后排除1行,最后剩下的就是国家了.

页: [1]

火车采集器软件交流官方论坛's Archiver

请大家帮忙这个标签:国家,如何采集?