火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3676|回复: 1

论坛采集器规则编写使用说明

[复制链接]
发表于 2013-11-3 09:28:39 | 显示全部楼层 |阅读模式
最新版本:http://faq.locoy.com/q-1018.html



我们以百度帖吧为列,说明一下如何设置普通的采集规则

6781160

一.采网址/网站登录

普通的规则都是使用起始网址方式1,即指定具体的网址或是使用规则生成网址。如果选定了网站类型,并要使用关键字查询的方式获取最后的结果,可以使用起始网址方式2获取网址,注意这种的网站类型和目标网站类型要一致才可以。如果目录论坛改动较多,可能会无法获取搜索结果。

如果要从起始网址获取内容页网址,则要选中,启用列表网址获取规则 。如果不选,则起始网址方式1的网址为内容页默认网址。

列表页网址获取对两种网址获取都起作用。

自动登录功能是和网站类型配合的,在实际运行过程中,如果登录失效,程序会自动再登录。

二.内容楼层分割/分页

8098121

论坛采集器的采集内容原理是先分一个主题区域和回复区域,主题内容从主题区域中获取,然后回复区域的多个回复使用字符串分割成多个楼层,再对每个楼层内容进行提取。其中,回复的分割代码是分两种,一种普通分割,一种正则和通配符的分割,分割方式是先使用普通分割,如果没结果,再使用正则分割方式。需要注意的一点是,回复区域是从源码中排除了主题区域代码后的源码部分。

对于分页的获取,必须先设置分页区域,然后才可以使用类火车采集器的组合方式分成分页。这种需要注意的事项是,获取的分页是要上一页下一页这样的,否则在增量采集时,会出错。当然,如果不考虑增量再次采集,全部获取方式是首先的。

在测试按钮下有一排数字,点击就可以只显示那一楼的楼层数据。

三.主题内容和回复规则

8374274

主题规则针对主题区域内容,回复规则针对每一个楼层数据。需要注意的是,主题规则中的标签和内容标签是必须的。另外其它的标签都请按Web发布数据接口开发说明进行操作。

对于标签中选了下载,程序会自动下载图片或是文件。智能创建采集规则是使用程序自动识提取标题和内容两个标签,识别正确后将规则填写好。可能因各个网站情况不同,识别率也会不同的。

四.文件下载\发布

15596433

如果要增量更新,需要选中,自动对已采集贴子进行增量更新

采集器支持一边采一边发的模式,启用该功能需选中内容采集完成后立即发布

还有是采集时,主题可能因规则问题没有获取到,这时就可以不采集回复

如果有些帖子采集时,原帖子已被删除掉,则可以使用 帖子删除标志 来删除数据库中的记录,已后不再采集了,对增量采集也有效的。

web发布配置这块的发布版权是可以写多个,以,分开,程序会随机的发布到每个版块中去。
发表于 2016-2-8 15:19:22 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 10:15

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表