这个采集需求有实现可行性没有?
我现在要采集一些信息,每条信息有8个字段内容。现在,我发现a网站的那些信息,我采集过来后,可以获得每条信息中的5个字段内容;而同时我发现,b网站中的那些信息可以采集另外3个字段的内容。
我想采集a了采集b的,然后把一一对应整合一下,那每条信息8个字段内容就齐了。
请各位从采集理论的高度和务实实践的角度来说说可行性和一些想法,谢谢!
PS。还有一点。a网站的信息列表和b网站的信息列表不可能是一一对应,不是a有啥b就有啥,只能说是部分信息a也有b也有,而我要衡量一条合格的采集信息是采集的a和b上都有的,8个字段整合一块儿了的。
我们公司说牛人能做的话,我们可以花钱请您来做,入库是ecms。
[ 本帖最后由 oneyeah 于 2007-11-23 16:54 编辑 ] 不可以,呵呵
回复 1楼 的帖子
可以联系我!QQ 254908116 原帖由 oneyeah 于 2007-11-23 16:53 发表 http://bbs.locoy.com/images/common/back.gif
我现在要采集一些信息,每条信息有8个字段内容。
现在,我发现a网站的那些信息,我采集过来后,可以获得每条信息中的5个字段内容;而同时我发现,b网站中的那些信息可以采集另外3个字段的内容。
我想采集a了采集b的 ...
要看具体的网站来设计具体的做法.
假设A站的信息是 姓名XXX 性别X 年龄X B站的信息是 姓名XXX 学历XXX 工作经验XX
我们要把两站姓名相同的信息合并起来成 姓名XXX 性别X 年龄X 学历XXX 工作经验XX
在采集的时候,AB两站里,姓名单独采集出来作为主键.两站采集完成后.
对数据库进行后期处理.把两个库里姓名相同记录,内容相加.
然后再发布.
其中这个主键设置最关键.是判断两站信息如何合并的依据.要有唯一性,而且AB两站要合并的信息的主键必须100%能对应的上才行.
简单的说就是,分别采集,采集数据后期处理,再发布.对数据库操作要有一定了解.
页:
[1]