求助热心的前辈,我研究了很久也不知道这种页面怎么采集……
本帖最后由 wp55580691 于 2009-7-23 23:46 编辑问题已解决!谢谢热心的火车管理员!!
律师姓名: XXX律师 所在地区:XXXXXXX
执业证号: XXXXXX 执业机构: XXXXXXX
联系电话: XXXXXX 联系地址:
手 机: XXXXXX 电子邮件: XXXXXXXX
需要采集的事“律师姓名”“所在地区”“手机”“电子邮件”“执业机构”
以前采集的小说网站都很正常 这回不管是前后标志直接用页面上的文字还是网站里的前后源码(例如前:<li><strong>律师姓名:</strong> 后:</li>)都采集不到……登陆后采集我也试过了……都是空白……
也是采集“律师姓名(这里是“我 是”)”“所在地区”“业务手机”“个人邮箱”“所属律所”
想知道如何采集这个网站的这两类页面,已经研究了两个通宵了……摸索不明白
特此求解
请求前辈们帮帮忙……谢谢大家……
晚辈
鞠躬
另外:火车采集器万岁! 多过滤。多加几个条件来采集,这类的很简单的。主意看他的class=后面都是不一样的
<LI class=BT>律师姓名:</LI>
<LI class=NR>董勤美律师</LI>
<LI class=BT>所在地区:</LI>
<LI class=NT>山东-济南</LI>
<LI class=BT>执业证号:</LI>
<LI class=NR>150102212038</LI>
<LI class=BT>执业机构:</LI>
2# 飛越無限
谢谢管理员!
我明白是怎么弄了
我后来用正则提取可以提取出数据,但是是乱码,后来去掉自动识别就好啦~~目~~~~嘛!谢谢管理员!
页:
[1]