火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3029|回复: 6

悬赏采集淘宝网的店铺信息,报酬优厚,非诚勿扰

[复制链接]
发表于 2011-4-22 17:02:12 | 显示全部楼层 |阅读模式
任务背景:为了研究淘宝店铺的分布规律,撰写毕业论文,需要采集所有淘宝网店铺的店铺信息,包括:店铺名称、所在地区、创店时间、卖家信用、宝贝数量、描述相符、服务态度、发货速度、加入消费者保障协议的状态、收藏人气等。为此接触了火车头这款强大的采集软件,经过20多天的研究,现已知:
1、淘宝网店铺网址的构成为:http://shop店铺ID.taobao.com。其中店铺ID与店铺成立时间密切相关,其数值由94(http://shop94.taobao.com 常州恩山电脑,为已知的现存最小ID的店铺)开始,直至9千多万。其中不均匀分布着大约500多万家店铺(2010年底的数据)
2、淘宝网店铺的采集规则,我们已经写好,且经过多次验证。
任务内容:目前经过多日的测试,我们发现了如下问题:
1、在线程数为10(免费版最大线程数),采集任务间隔:800ms的情况下,约每采集1000个网页(其中有效的淘宝店铺大约只有30个),10~15分钟后,淘宝网便会限制访问,无法采集到所需的数据。
2、采集5000个网页约用时1小时,而为了获得尽可能多的淘宝网店的信息,需采集约9000多万个网页(其中有效地淘宝店铺约500多万)。
看过上述介绍,我们有两个要求,请有能力的人士选择其一完成:
1、采集所有淘宝网店(成立时间截止至2011年4月22日)的地址,将采集到的地址导入excel或者text文档。时限:两天。
2、采集我们上述要求的所有淘宝网店*成立时间截止至2011年4月22日)的信息,导入任意数据库。时限:七天。

有意者或有疑问者请联系QQ476070816 枫阅翘佳人
具体报酬请QQ上协商。
下面是我们自己编写的采集规则,有需要的朋友可以拿走:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2011-4-22 21:18:54 | 显示全部楼层
这不可能,网速没那么快。
 楼主| 发表于 2011-4-22 22:17:41 | 显示全部楼层
回复 2# fengchujun


    火车头我们也没研究几天,时间上可能有些一厢情愿,那你觉得多长时间合适呢?
发表于 2011-4-22 23:26:54 | 显示全部楼层
好像不太可能。网速有的话,也不能逃出那个限制。我这边有50MB的网速,但估计也满足不了要求。
发表于 2011-4-23 16:28:12 | 显示全部楼层
不要搞了,跟老师吹吹牛给个红包毕业就过了
发表于 2011-5-31 13:23:18 | 显示全部楼层
你开多几台电脑,工作分流试试看
发表于 2011-5-31 22:26:08 | 显示全部楼层
友情帮顶
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-12-27 09:42

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表