|
本帖最后由 zhouchanglin 于 2014-3-22 11:29 编辑
火车头采集器的web发布是普遍适用的,由于其通过web发布规律来进行的,实际上web发布的过程:是按照一定的顺序访问网页(get,post)的过程,只不过一般最后的目的页总是通过post方式,发些post数据(路论坛发帖)以实现;
以下是我对火车头web发布的理解:
web配置:把用户网站等部分和发布模块分离开来,可以更灵活的调用发布模块,因为模块变化少
发布模块:1.登录设置 2.刷新设置 3.发布设置 4.随机值获取设置
整个发布过程:一.在添加完某个web配置时,做了些事:1.通过刷新设置得到分类信息,2.设置了cookie(发post包,通过模块里登录部分,得到cookie,手动填写cookie等),3.编码,网站根地址等 ;这样整个web配置完毕,登录部分就已经设置好了
二;在web配置时,登录已经完成了,真正去发布时做的只有 对发表页的以post方式访问,但是在之前可能对发布页的访问往往需要提供一些信息,这样就要通过哪些设置的随机值页,先去访问这些随机值页(这些随机值不会为登录部分提供信息,因为全部是在登录以后访问的),从中得到信息,最后访问发表页
火车头中网址 post数据是通过各种可以使用的信息构成的,可以提供的信息:标签(采集的数据),post随机值(通过访问某些页码得到) 自定义信息(分类预留值等) 系统信息(时间,网站根目录,用户名,密码等特殊的数据)
广告:
本人制作火车头规则 模块 接口,价格公道。
联系QQ:[qq]972130397,好友请注明:采集。
通用接口:,目前此接口可模拟js分页 post分页 多账号随机web发布 ,3种接口逻辑,本人做这个接口是不断的去修改 添加新功能的,做的不是很清楚 现在修改起来也比较乱了,目前的这3种模拟 对于大部分复杂的采集都是适用的,很多细节写法需要知道。
2014.3.13新功能:经过修改已经可以实现本机复杂的逻辑结构的模拟,多重条件限定下才执行的程序块,实现的方法:加了一个设置其他操作流程是否执行的标记 0 1值操作函数,而每个操作流程在执行前都会通过一个luoji_key='对应的逻辑标记名'的值 去判断是否执行该流程,这样就把逻辑设置与操作执行 分离了,可以模拟多条件限制这样复杂的流程了,现在的函数主要是对各请求页源码必须包含不得包含的判断
火车头网络推广:http://blog.sina.com.cn/iambike007
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|