悬赏采集淘宝网的店铺信息，报酬优厚，非诚勿扰

枫阅翘佳人 · 发表于 2011-4-22 17:02:12

任务背景：为了研究淘宝店铺的分布规律，撰写毕业论文，需要采集所有淘宝网店铺的店铺信息，包括：店铺名称、所在地区、创店时间、卖家信用、宝贝数量、描述相符、服务态度、发货速度、加入消费者保障协议的状态、收藏人气等。为此接触了火车头这款强大的采集软件，经过20多天的研究，现已知：
1、淘宝网店铺网址的构成为：http://shop店铺ID.taobao.com。其中店铺ID与店铺成立时间密切相关，其数值由94(http://shop94.taobao.com 常州恩山电脑,为已知的现存最小ID的店铺）开始，直至9千多万。其中不均匀分布着大约500多万家店铺（2010年底的数据）
2、淘宝网店铺的采集规则，我们已经写好，且经过多次验证。
任务内容：目前经过多日的测试，我们发现了如下问题：
1、在线程数为10（免费版最大线程数），采集任务间隔：800ms的情况下，约每采集1000个网页（其中有效的淘宝店铺大约只有30个），10~15分钟后,淘宝网便会限制访问，无法采集到所需的数据。
2、采集5000个网页约用时1小时，而为了获得尽可能多的淘宝网店的信息，需采集约9000多万个网页（其中有效地淘宝店铺约500多万）。
看过上述介绍，我们有两个要求，请有能力的人士选择其一完成：
1、采集所有淘宝网店（成立时间截止至2011年4月22日）的地址，将采集到的地址导入excel或者text文档。时限：两天。
2、采集我们上述要求的所有淘宝网店*成立时间截止至2011年4月22日）的信息，导入任意数据库。时限：七天。

有意者或有疑问者请联系QQ476070816 枫阅翘佳人
具体报酬请QQ上协商。
下面是我们自己编写的采集规则，有需要的朋友可以拿走：

fengchujun · 发表于 2011-4-22 21:18:54

这不可能，网速没那么快。

枫阅翘佳人 · 发表于 2011-4-22 22:17:41

回复 2# fengchujun

火车头我们也没研究几天，时间上可能有些一厢情愿，那你觉得多长时间合适呢？

xilinwork · 发表于 2011-4-22 23:26:54

好像不太可能。网速有的话，也不能逃出那个限制。我这边有50MB的网速，但估计也满足不了要求。

zyj33 · 发表于 2011-4-23 16:28:12

不要搞了,跟老师吹吹牛给个红包毕业就过了

solq360 · 发表于 2011-5-31 13:23:18

你开多几台电脑，工作分流试试看

kingmss · 发表于 2011-5-31 22:26:08

友情帮顶

帐号		自动登录	找回密码
密码			加入会员

悬赏采集淘宝网的店铺信息，报酬优厚，非诚勿扰

本帖子中包含更多资源