|
任务背景:为了研究淘宝店铺的分布规律,撰写毕业论文,需要采集所有淘宝网店铺的店铺信息,包括:店铺名称、所在地区、创店时间、卖家信用、宝贝数量、描述相符、服务态度、发货速度、加入消费者保障协议的状态、收藏人气等。为此接触了火车头这款强大的采集软件,经过20多天的研究,现已知:
1、淘宝网店铺网址的构成为:http://shop店铺ID.taobao.com。其中店铺ID与店铺成立时间密切相关,其数值由94(http://shop94.taobao.com 常州恩山电脑,为已知的现存最小ID的店铺)开始,直至9千多万。其中不均匀分布着大约500多万家店铺(2010年底的数据)
2、淘宝网店铺的采集规则,我们已经写好,且经过多次验证。
任务内容:目前经过多日的测试,我们发现了如下问题:
1、在线程数为10(免费版最大线程数),采集任务间隔:800ms的情况下,约每采集1000个网页(其中有效的淘宝店铺大约只有30个),10~15分钟后,淘宝网便会限制访问,无法采集到所需的数据。
2、采集5000个网页约用时1小时,而为了获得尽可能多的淘宝网店的信息,需采集约9000多万个网页(其中有效地淘宝店铺约500多万)。
看过上述介绍,我们有两个要求,请有能力的人士选择其一完成:
1、采集所有淘宝网店(成立时间截止至2011年4月22日)的地址,将采集到的地址导入excel或者text文档。时限:两天。
2、采集我们上述要求的所有淘宝网店*成立时间截止至2011年4月22日)的信息,导入任意数据库。时限:七天。
有意者或有疑问者请联系QQ476070816 枫阅翘佳人
具体报酬请QQ上协商。
下面是我们自己编写的采集规则,有需要的朋友可以拿走: |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|