提供一个无需写采集规则的思路。
先说内容页吧自动生成采集规则:
同一个网站,采集所有内容页,过滤掉所有html标签,剩下的就全部是文字内容了,分析文字内容,相同的部份即是目标内容的开头和结束
列表页同理,这样以来采集基本不需要规则了 有可能吗:lol:lol:lol:lol:lol 站群和采集侠就可以不写规则的 = =这种数据质量不敢恭维 ninqq 发表于 2012-10-19 12:46 static/image/common/back.gif
= =这种数据质量不敢恭维
赞同。对于我这种有采集洁癖的,多一点多余的数据都不要。 火车头旗舰版本,支持正文提取,采集文章不需要写规则,有这个站群功能的。 好像是 有人在做梦一样 http://www.a158.net 和你们一块学习。。。
页:
[1]