火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2897|回复: 3

两个实用的建议,希望采纳!

[复制链接]
发表于 2009-10-13 13:23:53 | 显示全部楼层 |阅读模式
1.比如我在火车里建个3个站点,每个站点下有10个任务,开3个线程同时采集发布。现在的火车处理方式是把这30个任务看成一个整体,从里面随机选取3个任务进行工作。这样有可能选取的3个任务都是对同一个网站发布的,而造成同一个网站压力大,发布失败的问题。
我的建议:开3个线程工作的时候,可以每个站点选取一个任务进行工作,这样可以同时处理3个不同的网站发布任务,提高效率。

2.希望增加一个判断采集标签内的内容少于(或多余)多少字节,而跳过采集这条记录的功能。这样当我采集百度知道的时候,内容只有一句话的时候我就可以不采集这条数据了。
发表于 2009-10-13 14:12:46 | 显示全部楼层
嗯,没试过,不过先顶一个...如果愿意的话,可以丢个QQ号之类的,也好直接交流下嘛..
发表于 2009-10-13 15:16:59 | 显示全部楼层
1.没意见
2.用接口
发表于 2016-2-9 02:16:59 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 18:49

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表