lewell007 发表于 2015-11-9 13:28:20

火车采集器V9:网页数据抓取之登录采集

我们在进行网页数据抓取的过程中,会发现有些网页需要权限才能看到全部内容,这种网站是必须登录才能看到内容的,比如论坛内容采集,或者要采集招聘信息里的电话号码等等,这种情况大家应该都遇到过,所以在网页数据抓取时要用到登录采集,现在就这个问题我给大家分享下我的经验——如何实现登录采集功能。    所用到的抓取工具是最常用的火车采集器V9,其实现原理为:我们手动操作要查看权限的内容只需要登录账号就可以了,那么火车采集器也是同理,只需要让采集器登录就能看到这个网站隐藏的信息。如何在火车采集器里面登录网页?火车采集器采用的是内置浏览器登录采集,数据发布有时也需要登录,发布登录除浏览器登录之外,还有另一种登录方式是数据包登录,这里讲解采集登录:
第一步,找到登录的界面。

第二步,按照下图的说明登录你要采集的网站,使用浏览器获取网页登录信息。这里Cookie是指用户的登录信息,Useragent是客户端或浏览器标识。


    通过上面2步,已经让火车采集器成功登录网站了,效果如上图所示。操作还是比较简单的,大家这样操作就能轻松完成登录采集啦!需要注意的是,这里只能是处理登录可见的内容,那种要回复才可见的是没有办法处理的。

tuidoudou 发表于 2016-1-17 22:16:01

http;//www.yanheying.com

东方星雨 发表于 2017-4-25 10:15:44

对于登陆后,访问一定数量后的文章后需要再次登录的网站采集,有没有方便一点的采集方法(不用一而再,再而三的登录)
页: [1]
查看完整版本: 火车采集器V9:网页数据抓取之登录采集