simple1513 发表于 2012-10-6 23:05:40

提供一个无需写采集规则的思路。

先说内容页吧

自动生成采集规则:

同一个网站,采集所有内容页,过滤掉所有html标签,剩下的就全部是文字内容了,分析文字内容,相同的部份即是目标内容的开头和结束

列表页同理,这样以来采集基本不需要规则了

liquangw 发表于 2012-10-7 20:26:16

有可能吗:lol:lol:lol:lol:lol

caijihome 发表于 2012-10-17 15:40:43

站群和采集侠就可以不写规则的

ninqq 发表于 2012-10-19 12:46:40

= =这种数据质量不敢恭维

pbdq 发表于 2012-11-7 23:20:29

ninqq 发表于 2012-10-19 12:46 static/image/common/back.gif
= =这种数据质量不敢恭维

赞同。对于我这种有采集洁癖的,多一点多余的数据都不要。

caijihome 发表于 2012-11-12 16:57:28

火车头旗舰版本,支持正文提取,采集文章不需要写规则,有这个站群功能的。

zhoujian666 发表于 2012-11-29 15:05:42

好像是 有人在做梦一样 http://www.a158.net

lbjyuer 发表于 2016-2-10 17:36:39

和你们一块学习。。。
页: [1]
查看完整版本: 提供一个无需写采集规则的思路。