火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4271|回复: 7

提供一个无需写采集规则的思路。

[复制链接]
发表于 2012-10-6 23:05:40 | 显示全部楼层 |阅读模式
先说内容页吧

自动生成采集规则:

同一个网站,采集所有内容页,过滤掉所有html标签,剩下的就全部是文字内容了,分析文字内容,相同的部份即是目标内容的开头和结束

列表页同理,这样以来采集基本不需要规则了
发表于 2012-10-7 20:26:16 | 显示全部楼层
有可能吗
发表于 2012-10-17 15:40:43 | 显示全部楼层
站群和采集侠就可以不写规则的
发表于 2012-10-19 12:46:40 | 显示全部楼层
= =这种数据质量不敢恭维
发表于 2012-11-7 23:20:29 | 显示全部楼层
ninqq 发表于 2012-10-19 12:46
= =这种数据质量不敢恭维

赞同。对于我这种有采集洁癖的,多一点多余的数据都不要。
发表于 2012-11-12 16:57:28 | 显示全部楼层
火车头旗舰版本,支持正文提取,采集文章不需要写规则,有这个站群功能的。
发表于 2012-11-29 15:05:42 | 显示全部楼层
好像是 有人在做梦一样 http://www.a158.net
发表于 2016-2-10 17:36:39 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-4-5 15:21

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表