找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3350|回复: 7

提供一个无需写采集规则的思路。

[复制链接]
发表于 2012-10-6 23:05:40 | 显示全部楼层 |阅读模式
先说内容页吧

自动生成采集规则:

同一个网站,采集所有内容页,过滤掉所有html标签,剩下的就全部是文字内容了,分析文字内容,相同的部份即是目标内容的开头和结束

列表页同理,这样以来采集基本不需要规则了
发表于 2012-10-7 20:26:16 | 显示全部楼层
有可能吗
发表于 2012-10-17 15:40:43 | 显示全部楼层
站群和采集侠就可以不写规则的
发表于 2012-10-19 12:46:40 | 显示全部楼层
= =这种数据质量不敢恭维
发表于 2012-11-7 23:20:29 | 显示全部楼层
ninqq 发表于 2012-10-19 12:46
= =这种数据质量不敢恭维

赞同。对于我这种有采集洁癖的,多一点多余的数据都不要。
发表于 2012-11-12 16:57:28 | 显示全部楼层
火车头旗舰版本,支持正文提取,采集文章不需要写规则,有这个站群功能的。
发表于 2012-11-29 15:05:42 | 显示全部楼层
好像是 有人在做梦一样 http://www.a158.net
发表于 2016-2-10 17:36:39 | 显示全部楼层
和你们一块学习。。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表