枫阅翘佳人 发表于 2011-4-22 17:02:12

悬赏采集淘宝网的店铺信息,报酬优厚,非诚勿扰

任务背景:为了研究淘宝店铺的分布规律,撰写毕业论文,需要采集所有淘宝网店铺的店铺信息,包括:店铺名称、所在地区、创店时间、卖家信用、宝贝数量、描述相符、服务态度、发货速度、加入消费者保障协议的状态、收藏人气等。为此接触了火车头这款强大的采集软件,经过20多天的研究,现已知:
1、淘宝网店铺网址的构成为:http://shop店铺ID.taobao.com。其中店铺ID与店铺成立时间密切相关,其数值由94(http://shop94.taobao.com 常州恩山电脑,为已知的现存最小ID的店铺)开始,直至9千多万。其中不均匀分布着大约500多万家店铺(2010年底的数据)
2、淘宝网店铺的采集规则,我们已经写好,且经过多次验证。
任务内容:目前经过多日的测试,我们发现了如下问题:
1、在线程数为10(免费版最大线程数),采集任务间隔:800ms的情况下,约每采集1000个网页(其中有效的淘宝店铺大约只有30个),10~15分钟后,淘宝网便会限制访问,无法采集到所需的数据。
2、采集5000个网页约用时1小时,而为了获得尽可能多的淘宝网店的信息,需采集约9000多万个网页(其中有效地淘宝店铺约500多万)。
看过上述介绍,我们有两个要求,请有能力的人士选择其一完成:
1、采集所有淘宝网店(成立时间截止至2011年4月22日)的地址,将采集到的地址导入excel或者text文档。时限:两天。
2、采集我们上述要求的所有淘宝网店*成立时间截止至2011年4月22日)的信息,导入任意数据库。时限:七天。

有意者或有疑问者请联系QQ476070816 枫阅翘佳人
具体报酬请QQ上协商。
下面是我们自己编写的采集规则,有需要的朋友可以拿走:

fengchujun 发表于 2011-4-22 21:18:54

这不可能,网速没那么快。

枫阅翘佳人 发表于 2011-4-22 22:17:41

回复 2# fengchujun


    火车头我们也没研究几天,时间上可能有些一厢情愿,那你觉得多长时间合适呢?

xilinwork 发表于 2011-4-22 23:26:54

好像不太可能。网速有的话,也不能逃出那个限制。我这边有50MB的网速,但估计也满足不了要求。

zyj33 发表于 2011-4-23 16:28:12

不要搞了,跟老师吹吹牛给个红包毕业就过了

solq360 发表于 2011-5-31 13:23:18

你开多几台电脑,工作分流试试看

kingmss 发表于 2011-5-31 22:26:08

友情帮顶{:4_196:}
页: [1]
查看完整版本: 悬赏采集淘宝网的店铺信息,报酬优厚,非诚勿扰