求助热心的前辈，我研究了很久也不知道这种页面怎么采集……

wp55580691 发表于 2009-7-23 22:06:07

本帖最后由 wp55580691 于 2009-7-23 23:46 编辑

问题已解决！谢谢热心的火车管理员！！

律师姓名： XXX律师所在地区：XXXXXXX
执业证号： XXXXXX    执业机构： XXXXXXX
联系电话： XXXXXX    联系地址：
手　　机： XXXXXX       电子邮件： XXXXXXXX
需要采集的事“律师姓名”“所在地区”“手机”“电子邮件”“执业机构”

以前采集的小说网站都很正常这回不管是前后标志直接用页面上的文字还是网站里的前后源码（例如前：<li><strong>律师姓名：</strong> 后：</li>）都采集不到……登陆后采集我也试过了……都是空白……

也是采集“律师姓名（这里是“我是”）”“所在地区”“业务手机”“个人邮箱”“所属律所”

想知道如何采集这个网站的这两类页面，已经研究了两个通宵了……摸索不明白

特此求解

请求前辈们帮帮忙……谢谢大家……

晚辈

鞠躬

另外：火车采集器万岁！

飛越無限 发表于 2009-7-23 23:11:39

多过滤。多加几个条件来采集，这类的很简单的。主意看他的class=后面都是不一样的
<LI class=BT>律师姓名：</LI>
<LI class=NR>董勤美律师</LI>

<LI class=BT>所在地区：</LI>
<LI class=NT>山东-济南</LI>
<LI class=BT>执业证号：</LI>
<LI class=NR>150102212038</LI>
<LI class=BT>执业机构：</LI>

wp55580691 发表于 2009-7-23 23:44:14

2# 飛越無限
谢谢管理员！
我明白是怎么弄了
我后来用正则提取可以提取出数据，但是是乱码，后来去掉自动识别就好啦~~目~~~~嘛！谢谢管理员！

页: [1]

火车采集器软件交流官方论坛's Archiver

求助热心的前辈，我研究了很久也不知道这种页面怎么采集……