wp55580691 发表于 2009-7-23 22:06:07

求助热心的前辈,我研究了很久也不知道这种页面怎么采集……

本帖最后由 wp55580691 于 2009-7-23 23:46 编辑

问题已解决!谢谢热心的火车管理员!!


律师姓名: XXX律师 所在地区:XXXXXXX
执业证号: XXXXXX      执业机构: XXXXXXX
联系电话: XXXXXX      联系地址:
手  机: XXXXXX          电子邮件: XXXXXXXX
需要采集的事“律师姓名”“所在地区”“手机”“电子邮件”“执业机构”

以前采集的小说网站都很正常 这回不管是前后标志直接用页面上的文字还是网站里的前后源码(例如前:<li><strong>律师姓名:</strong> 后:</li>)都采集不到……登陆后采集我也试过了……都是空白……

也是采集“律师姓名(这里是“我    是”)”“所在地区”“业务手机”“个人邮箱”“所属律所”

想知道如何采集这个网站的这两类页面,已经研究了两个通宵了……摸索不明白

特此求解

请求前辈们帮帮忙……谢谢大家……

晚辈

鞠躬

另外:火车采集器万岁!

飛越無限 发表于 2009-7-23 23:11:39

多过滤。多加几个条件来采集,这类的很简单的。主意看他的class=后面都是不一样的
<LI class=BT>律师姓名:</LI>
<LI class=NR>董勤美律师</LI>

<LI class=BT>所在地区:</LI>
<LI class=NT>山东-济南</LI>
<LI class=BT>执业证号:</LI>
<LI class=NR>150102212038</LI>
<LI class=BT>执业机构:</LI>

wp55580691 发表于 2009-7-23 23:44:14

2# 飛越無限
谢谢管理员!
我明白是怎么弄了
我后来用正则提取可以提取出数据,但是是乱码,后来去掉自动识别就好啦~~目~~~~嘛!谢谢管理员!
页: [1]
查看完整版本: 求助热心的前辈,我研究了很久也不知道这种页面怎么采集……