|
发表于 2007-11-23 22:42:43
|
显示全部楼层
原帖由 oneyeah 于 2007-11-23 16:53 发表 
我现在要采集一些信息,每条信息有8个字段内容。
现在,我发现a网站的那些信息,我采集过来后,可以获得每条信息中的5个字段内容;而同时我发现,b网站中的那些信息可以采集另外3个字段的内容。
我想采集a了采集b的 ...
要看具体的网站来设计具体的做法.
假设A站的信息是 姓名XXX 性别X 年龄X B站的信息是 姓名XXX 学历XXX 工作经验XX
我们要把两站姓名相同的信息合并起来成 姓名XXX 性别X 年龄X 学历XXX 工作经验XX
在采集的时候,AB两站里,姓名单独采集出来作为主键.两站采集完成后.
对数据库进行后期处理.把两个库里姓名相同记录,内容相加.
然后再发布.
其中这个主键设置最关键.是判断两站信息如何合并的依据.要有唯一性,而且AB两站要合并的信息的主键必须100%能对应的上才行.
简单的说就是,分别采集,采集数据后期处理,再发布.对数据库操作要有一定了解. |
|