说下火车的几个比较差的地方,,,,,,,,
1,只能简单采集,,,,分页稍微复杂点就采集不了,,,,,,,,,,比如有些url不完整的.......2,采集图片的时候,,如果数量多点,,,,,,,,就有很多图片采集不到,,,,,,,,,,
如果用不随机文件名的话,有很多重复文件名的图片,
我一般是采集一次,大约 2000个图片有70 多个图片采不到,,还要自己以个收到下载图片改名,,,,,,,,,,郁闷呀,
希望能加入重下失败文件的功能.
3,基本上以开火车,就什么都不能干那,
4,过滤重复做的很不好,,反正我发布文章后,,发现有很多重复的文章 , 1、采集分页的 我采集的基本上都不难 所以还可以(我基本上不采集特难的)
2、图片这个问题在下一版本应该会解决的
3、下一版本会有很大改观
4、重复过滤还是可以的(我直接倒库就没有发现过重复的文章)
页:
[1]