做新闻,做论坛的朋友真是有福,非通用类网站的采集
看见蜜蜂已经出了格式数据采集 火车的什么时候出啊?我自己有一个不同于现在市面上的采集过滤思路,只是不会用程序来实现,这个思路会让采集过滤的时候用户一点也不用接触html,不知道对火车有没有参考作用.有意可发邮件给我详细解释思路.而且这个想法用.net实现比web方式的更快捷,更有优势,可能是web方式的做不出来的. email--- 89588755(@)163.com
我做的是房产类型网站.这种类型网站有几个特殊的地方
1 信息更新很快,也很容易失效
2 信息几乎没有保存价值
3 信息一般是用表格形式表现
现在的问题是,用通用的采集方法采集回来的数据一般是一个页面内一个内容框架内的内容,还没有细分到多个字段(表单)
再就是入库问题,如果不能入库,单纯的发表形式,是不能发表的,因为房产类型的网站是一个表单.
要是采集器能支持调用数据库针对字段对字段的映射 这个问题就能解决 我原来建立初始数据的时候就是使用了一个数据库的转换导入软件来完成工作的, 因为2个不同的数据库 字段名字不一样 还有字段不一样,所以导入的时候就要手工设置匹配以下比如源数据库表.字段是"出售信息" 目标数据库却是"chusou".就需要手工匹配了.
现在采集器功能做到能细分到字段类似于源数据库的功能并且能链接数据库那就太完美了 应该说就完全可以针对一切网站了.(access类型)
附:数据库迁移工具参考
[ 本帖最后由 84542649 于 2006-7-5 16:08 编辑 ] 谢谢分享!!!!!!!!!!!!!!!!!!!
看蜜蜂的格式数据采集 火车的什么时候出啊?
我自己有一个不同于现在市面上的采集过滤思路,只是不会用程序来实现,这个思路会让采集过滤的时候用户一点也不用接触html,不知道对火车有没有参考作用.有意可发邮件给我详细解释思路.而且这个想法用.net实现比web方式的更快捷,更有优势,可能是web方式的做不出来的. email--- 89588755(@)163.com转载
小蜜蜂格式数据采集系统是一个完全面向用户采集行为,允许用户自行设计采集内容的高度智能化采集系统;适合采集格式数据,如:房产、招聘、招投标、网络商情、产品价格、股票/期货价格等信息。
格式数据定义:一条信息包含了若干子项内容,且各子项内容是分开独立显;如一条租房信息就可能包含以下基本子项内容,有:地段、位置、区域、房屋类型、楼层、面积、价格、朝向、产权、设施、价格、联系人、手机、电话、email......;
格式数据采集与普通文章采集的区别:
文章采集一般只设计采集标题、文章内容、来源、作者、发布日期,无法扩展;而且文章的内容是连贯显示的,而格式数据的内容是多个子项独立显示,无法用传统文章采集系统采集到类似房产、招聘、招投标、网络商情、产品价格、股票/期货价格这些特殊信息。
功能介绍:
1、在系统基本采集标签基础上,允许用户随时自定义采集标签(试用版、标准版可自定义20个标签,高级版不限);
2、站点+频道管理方式,使采集管理一目了然;
3、支持登录采集,可采集某些登录才能浏览信息的目标源;
4、允许设置自定义标签内容属性,采集时自动校验内容属性判断是否保留入库;
5、支持采集结果人工筛选,并提供“空标题、空内容”的快速过滤删除;
6、支持站点配置规则导入、导出;
7、支持频道配置规则导入、导出,提供规则复制功能简化设置;
8、支持采集过程断点续采功能,不受浏览器意外关闭影响,重新启动后不会重复采集;
9、支持自动对比过滤功能,对已采集的链接不会进行重复采集和入库;
10、PHP程序开发,支持多操作系统环境,Windows、FreeBSD、Linux、Solaris均可安装部署;
11、支持远程部署,产品可安装在服务器上(推荐)运行,也可安装在本地电脑上运行;
12、服务器部署在线采集,可发挥本产品节能、高效特点;采集数据快速导入WEB应用系统,非一般离线采集工具可比;
13、多种数据导出方式,可将采集数据导入WEB系统;
14、支持2次开发提取本系统采集的数据;
15、试用版可测试采集功能,数据不能导库,其他功能无限制;
16、完全自定义的采集系统,非一般固定采集某个目标产品;一次购买可以设置采集任意多个目标。 呵呵
你看我用火车头做的,也是房地产中介联盟网站,我将很多站的房源数据采集下来了,怎么我不用你这么复杂?
www.rentnet.cn 是不用那么复杂,我采集的时候一般都很简单的。如果不想html直接过滤就是了。火车的功能不是其他的采集器能替代的,我用过了fbc,小蜜蜂和火车头。最早用的是小密封,由于他们采用的是php的在安装的时候对5.0的sql版本支持不是很好,采集老出问题(我并不是要诋毁任何人,只是我用的当时是这种情况,很就没关注了现在如何我也不知道)又的不到解决,所以就换bfc了,但是bfc过分的简单。最后用的是火车头。用过之后就再没换过了。因为我用来采集的一些网站其他的采集器是绝对采集不到的!
不过话说回来,火车头在智能化方面确实有点欠缺。可以借鉴小蜜蜂,不过现在的功能绝对不能丢,如果智能化提高了但是现在的功能丢 了,我宁愿用老的版本。
老版本的循环问题不知道新版的能不能得到解决,另外一个就是采集目标的保存问题:老版本在保存采集目标的时候保存的是网址,对于获得网址的这些规则没加以保存,这样有点类似于一次性采集。但是对目标站点的采集一般都是跟踪采集的,所以。。。
另外不知道何时2.0的能放出来,我的分数没达到,自己目前又没站点(我都在本机玩)不能给小蜜蜂做连接,又不想灌水(要灌水太简单了,当时申请国外免费空间的时候都是一个晚上几十贴的),不知道能不能给我一份下载的地址,我的邮件地址:lyspost#sohu.com
看看下面我采集的内容,如果你够聪明一定对你有帮助,特别是想做图片站的人(记住,不是叫你看图片,嘿嘿,能不能得道好处看你造化了。不是兄弟我卖弄,用的人多 了就不灵了:lol)。。。
纳闷,不看图片看什么,自己想;P
希望老大别t我,如果觉得内容不健康删除了就是了,再也不会发这种智利题:lol
【标题】: 顶级街头偷拍
【内容】:
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=9612cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=45accnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=7c4acnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=e882cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=a2b2cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=ad86cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=e24fcnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=dab4cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=99bbcnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=ff51cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=d76acnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=e72ccnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=6583cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=7f6ecnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=36a3cnb.jpg
http://cn.pg.photos.yahoo.com/ph/yanjie19870324/detail_hires?.dir=9a24&.dnm=4ff9cnb.jpg
[ 本帖最后由 insun 于 2006-7-9 02:11 编辑 ]
楼上的老大指教一下
采集多字段的思路就是现在蜜蜂用来卖钱的格式化采集功能用火车如何实现?
能把采房产的配置简介一下吗 我就是用普通的火车1.21采集的啊,呵呵。
其实,火车头已经做得很好了。2.0更是很完善,只是,2.0在使用上存在错误。
火车头的灵活功能,需要自己去摸索的。
www.rentnet.cn,你采集的内容,永远没有我这个复杂。这里所有采集的字段全是自定义的,cms是自己开发的,发表模块是自己写的,网页展示是自己做的。 原帖由 insun 于 2006-7-9 02:05 发表
是不用那么复杂,我采集的时候一般都很简单的。如果不想html直接过滤就是了。火车的功能不是其他的采集器能替代的,我用过了fbc,小蜜蜂和火车头。最早用的是小密封,由于他们采用的是php的在安装的时候对5.0的sq ...
pp
我先谢谢你再来下载
我先谢谢你再来下载看上去很好 我就是用普通的火车1.21采集的,2.0还不习惯
页:
[1]
2