|
看见蜜蜂已经出了格式数据采集 火车的什么时候出啊?
我自己有一个不同于现在市面上的采集过滤思路,只是不会用程序来实现,这个思路会让采集过滤的时候用户一点也不用接触html,不知道对火车有没有参考作用.有意可发邮件给我详细解释思路.而且这个想法用.net实现比web方式的更快捷,更有优势,可能是web方式的做不出来的. email--- 89588755(@)163.com
我做的是房产类型网站.这种类型网站有几个特殊的地方
1 信息更新很快,也很容易失效
2 信息几乎没有保存价值
3 信息一般是用表格形式表现
现在的问题是,用通用的采集方法采集回来的数据一般是一个页面内一个内容框架内的内容,还没有细分到多个字段(表单)
再就是入库问题,如果不能入库,单纯的发表形式,是不能发表的,因为房产类型的网站是一个表单.
要是采集器能支持调用数据库 针对字段对字段的映射 这个问题就能解决 我原来建立初始数据的时候就是使用了一个数据库的转换导入软件来完成工作的, 因为2个不同的数据库 字段名字不一样 还有字段不一样,所以导入的时候就要手工设置匹配以下 比如源数据库 表.字段是"出售信息" 目标数据库却是"chusou" .就需要手工匹配了.
现在采集器功能做到能细分到字段 类似于源数据库的功能并且能链接数据库 那就太完美了 应该说就完全可以针对一切网站了.(access类型)
附:数据库迁移工具 参考
[ 本帖最后由 84542649 于 2006-7-5 16:08 编辑 ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
评分
-
1
查看全部评分
-
|