发新话题
打印

数据采集重复问题,请版主、高手指导

数据采集重复问题,请版主、高手指导

3.0.1版的火车
在内容规则的典型页面测试中能正确采集数据
但一旦正式采集数据后,会将许多内容规则外的数据也采集过来,并且还会多次重复采集,这是怎么回事啊
请版主、高手指导一下。
附件是导出的规则。
网址:http://search.daqi.com/cgi-bin/s ... p;chl=tu&page=1,是2级目录,要采集里面的图片文章。

[ 本帖最后由 7306 于 2007-1-11 21:04 编辑 ]
附件: 您所在的用户组无法下载或查看附件

TOP

晚上给你看看吧

接二建站活,整站建设,程序订做修改,最低288元起
1G虚拟主机130元/年,招代理送平台

TOP

谢谢版主及时回复
我后来把规则改了下似乎解决了部分问题,现在在采集网址的“开始测试网址采集”以及内容规则中的“典型页面测试”都能按要求完成,但我按开始键正式采集后还是采集出许多不相关的页面及重复页面,我如何编辑采集出来的数据?系统似乎没法手工添加或删除。

[ 本帖最后由 7306 于 2007-1-11 21:20 编辑 ]

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.216984 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-24 04:59 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档