7306 发表于 2007-1-11 01:24:53

数据采集重复问题,请版主、高手指导

3.0.1版的火车
在内容规则的典型页面测试中能正确采集数据
但一旦正式采集数据后,会将许多内容规则外的数据也采集过来,并且还会多次重复采集,这是怎么回事啊
请版主、高手指导一下。
附件是导出的规则。
网址:http://search.daqi.com/cgi-bin/s ... p;chl=tu&page=1,是2级目录,要采集里面的图片文章。

[ 本帖最后由 7306 于 2007-1-11 21:04 编辑 ]

amd5452 发表于 2007-1-11 09:31:26

晚上给你看看吧

7306 发表于 2007-1-11 21:07:54

谢谢版主及时回复
我后来把规则改了下似乎解决了部分问题,现在在采集网址的“开始测试网址采集”以及内容规则中的“典型页面测试”都能按要求完成,但我按开始键正式采集后还是采集出许多不相关的页面及重复页面,我如何编辑采集出来的数据?系统似乎没法手工添加或删除。

[ 本帖最后由 7306 于 2007-1-11 21:20 编辑 ]
页: [1]
查看完整版本: 数据采集重复问题,请版主、高手指导