为什么测试采集到二级网址1W多 而导出二级目录 只有600 多呢?
为什么测试采集到二级网址1W多 而导出二级目录 只有600 多呢? 可能是重复所致。比如某一个文章既在分类1中,也在分类2中。你测试的时候,他在两个中都有的,但在采集的时候火车自动过滤后面一个。 我也遇到这个问题,测试出1万多条,实际导出只有6千多条。
但是不像是重复造成的呀?因为实际原始网址是9万多条,测试的时候已经选了筛选重复,所以测试出只剩1万多条了,那么导出的时候变得更少就不知是什么原因了呀:Q 绝对是重复的问题
页:
[1]