火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2435|回复: 5

请大家帮忙这个标签:国家,如何采集?

[复制链接]
发表于 2010-4-18 10:46:44 | 显示全部楼层 |阅读模式
这是列表页网址:
http://www.intracen.org/dbms/Leather/CLResults.Asp?DS=HS&CG=G22&CD=&PD=&PG=1&ID=19257
文章页网址:
http://www.intracen.org/dbms/Leather/Contact.Asp?DS=HS&CG=G22&CD=&PD=&PG=1&ID=19257

怎么把国家名称给采集出来呢?

文章页, 国家名称和地址紧紧连在一起. 而且地址的长度不固定 . 地址有时两行,有时三行. 所以,我认为,除非火车可以按照代码倒序查找, 否则, 我是不知道怎么把国家给剔出来.
列表页, 我觉得应该可以, 但是,我不知道如何能引用其他标签,比如公司名称, 要是能调用"公司名称",在定位"国家"就简单了. 但是我不会. 要是能调用默认页的网址也可以,但是我也不会.

求助!
发表于 2010-4-18 11:48:16 | 显示全部楼层
qiangrea a a
发表于 2010-4-18 11:58:59 | 显示全部楼层
<td width="50%" valign="top" height="78" align="left"><font class="font-text-10">(*)<br>[参数]
                                </font></td>
 楼主| 发表于 2010-4-18 15:36:01 | 显示全部楼层
回复 3# monface


    谢谢解答.
但是有疑问, 问题没有解决.
您说的, 是普通办法采集, td width="50%" valign="top" height="78" align="left"><font class="font-text-10">(*)<br> 开始, </font></td> 这个结束吗? 这样是不行的, 因为, 这样采集出来的内容有可能包含一部分地址文字在里边.  而且, 国家前边的 <br> 个数是不确定的,有时候2行,有时候三行. 所以, 这样是不成功的.

本人对正则采集一窍不通, 不过我也试过了, 将
<td width="50%" valign="top" height="78" align="left"><font class="font-text-10">(*)<br>[参数]
                                </font></td>
放入正则表达式, 右边写[参数1] 产生的结果也是包含一段地址的国家, 也是不成功的.
希望继续帮我看看
发表于 2010-4-19 12:36:01 | 显示全部楼层
来,好人做到底,我QQ:67970951
 楼主| 发表于 2010-4-23 16:18:27 | 显示全部楼层
谢谢楼上的啦, 解决了.
使用的排出的办法.
先假设有五行, 就派出那个<br>
然后排除4行,
在排除3行,最后排除1行,最后剩下的就是国家了.
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-13 22:03

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表