我们在进行网页数据抓取的过程中,会发现有些网页需要权限才能看到全部内容,这种网站是必须登录才能看到内容的,比如论坛内容采集,或者要采集招聘信息里的电话号码等等,这种情况大家应该都遇到过,所以在网页数据抓取时要用到登录采集,现在就这个问题我给大家分享下我的经验——如何实现登录采集功能。 所用到的抓取工具是最常用的火车采集器V9,其实现原理为:我们手动操作要查看权限的内容只需要登录账号就可以了,那么火车采集器也是同理,只需要让采集器登录就能看到这个网站隐藏的信息。 如何在火车采集器里面登录网页?火车采集器采用的是内置浏览器登录采集,数据发布有时也需要登录,发布登录除浏览器登录之外,还有另一种登录方式是数据包登录,这里讲解采集登录:
第一步,找到登录的界面。
第二步,按照下图的说明登录你要采集的网站,使用浏览器获取网页登录信息。这里Cookie是指用户的登录信息,Useragent是客户端或浏览器标识。
通过上面2步,已经让火车采集器成功登录网站了,效果如上图所示。操作还是比较简单的,大家这样操作就能轻松完成登录采集啦!需要注意的是,这里只能是处理登录可见的内容,那种要回复才可见的是没有办法处理的。
|