cszfy 发表于 2009-11-27 11:27:33

关于采集b2b网站的思考

b2b网站有企业资料供求信息相应的行业分类信息等。
如果自己是b2b的网站,如果单独采集企业资料 联系方式 简介之类的用多页采集并不困难,
如果采集供求信息 产品说明 图片之类的,也不困难。
但是要把这两者连起来我却想不到什么好办法了,因为企业信息是分页的(简介,联系方式等),产品也是多条的(再次分页)且目录层次可能达到三级或者以上,如何把他们给对应起来呢? 不知道哪位高手有好的方法或者经验,分享一下啊。

连通 发表于 2009-11-27 11:33:00

第一步就错了,以后的路自然不通畅

eogoe 发表于 2009-11-27 15:12:17

个人想法:这是一个全局匹配的问题,以某一个字段作为唯一值 所有的数据围绕着来做,自己建表然后分类类似api 的调用,不行在匹配插入,最后的办法就是的就一批一批入库了

cszfy 发表于 2009-11-27 16:34:14

2# 连通
老手介绍一下经验啊。

kjmdiba 发表于 2009-11-28 12:41:40

我也在采阿里巴巴的, 用destoon程序

cszfy 发表于 2009-11-29 13:05:34

楼上大哥 可否介绍一二啊。
页: [1]
查看完整版本: 关于采集b2b网站的思考