火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7744|回复: 2

火车采集器V9:网页数据抓取之登录采集

[复制链接]
发表于 2015-11-9 13:28:20 | 显示全部楼层 |阅读模式
我们在进行网页数据抓取的过程中,会发现有些网页需要权限才能看到全部内容,这种网站是必须登录才能看到内容的,比如论坛内容采集,或者要采集招聘信息里的电话号码等等,这种情况大家应该都遇到过,所以在网页数据抓取时要用到登录采集,现在就这个问题我给大家分享下我的经验——如何实现登录采集功能。
    所用到的抓取工具是最常用的火车采集器V9,其实现原理为:我们手动操作要查看权限的内容只需要登录账号就可以了,那么火车采集器也是同理,只需要让采集器登录就能看到这个网站隐藏的信息。
如何在火车采集器里面登录网页?火车采集器采用的是内置浏览器登录采集,数据发布有时也需要登录,发布登录除浏览器登录之外,还有另一种登录方式是数据包登录,这里讲解采集登录:
第一步,找到登录的界面。

第二步,按照下图的说明登录你要采集的网站,使用浏览器获取网页登录信息。这里Cookie是指用户的登录信息,Useragent是客户端或浏览器标识。



    通过上面2步,已经让火车采集器成功登录网站了,效果如上图所示。操作还是比较简单的,大家这样操作就能轻松完成登录采集啦!需要注意的是,这里只能是处理登录可见的内容,那种要回复才可见的是没有办法处理的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2016-1-17 22:16:01 | 显示全部楼层
http;//www.yanheying.com
发表于 2017-4-25 10:15:44 | 显示全部楼层
对于登陆后,访问一定数量后的文章后需要再次登录的网站采集,有没有方便一点的采集方法(不用一而再,再而三的登录)
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 05:56

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表