|
最新版本:http://faq.locoy.com/q-1018.html
我们以百度帖吧为列,说明一下如何设置普通的采集规则
6781160
一.采网址/网站登录
普通的规则都是使用起始网址方式1,即指定具体的网址或是使用规则生成网址。如果选定了网站类型,并要使用关键字查询的方式获取最后的结果,可以使用起始网址方式2获取网址,注意这种的网站类型和目标网站类型要一致才可以。如果目录论坛改动较多,可能会无法获取搜索结果。
如果要从起始网址获取内容页网址,则要选中,启用列表网址获取规则 。如果不选,则起始网址方式1的网址为内容页默认网址。
列表页网址获取对两种网址获取都起作用。
自动登录功能是和网站类型配合的,在实际运行过程中,如果登录失效,程序会自动再登录。
二.内容楼层分割/分页
8098121
论坛采集器的采集内容原理是先分一个主题区域和回复区域,主题内容从主题区域中获取,然后回复区域的多个回复使用字符串分割成多个楼层,再对每个楼层内容进行提取。其中,回复的分割代码是分两种,一种普通分割,一种正则和通配符的分割,分割方式是先使用普通分割,如果没结果,再使用正则分割方式。需要注意的一点是,回复区域是从源码中排除了主题区域代码后的源码部分。
对于分页的获取,必须先设置分页区域,然后才可以使用类火车采集器的组合方式分成分页。这种需要注意的事项是,获取的分页是要上一页下一页这样的,否则在增量采集时,会出错。当然,如果不考虑增量再次采集,全部获取方式是首先的。
在测试按钮下有一排数字,点击就可以只显示那一楼的楼层数据。
三.主题内容和回复规则
8374274
主题规则针对主题区域内容,回复规则针对每一个楼层数据。需要注意的是,主题规则中的标签和内容标签是必须的。另外其它的标签都请按Web发布数据接口开发说明进行操作。
对于标签中选了下载,程序会自动下载图片或是文件。智能创建采集规则是使用程序自动识提取标题和内容两个标签,识别正确后将规则填写好。可能因各个网站情况不同,识别率也会不同的。
四.文件下载\发布
15596433
如果要增量更新,需要选中,自动对已采集贴子进行增量更新
采集器支持一边采一边发的模式,启用该功能需选中内容采集完成后立即发布
还有是采集时,主题可能因规则问题没有获取到,这时就可以不采集回复
如果有些帖子采集时,原帖子已被删除掉,则可以使用 帖子删除标志 来删除数据库中的记录,已后不再采集了,对增量采集也有效的。
web发布配置这块的发布版权是可以写多个,以,分开,程序会随机的发布到每个版块中去。
|
|