火车采集器V2008版更新[2008-08-08][火车车厢管理制度]论坛活跃、奖励计划http://domain.locoy.com火车采集器高级版本在线订购高级版本功能及技术支持列表
返回列表 回复 发帖

使用火车头的几点体会和建议

本人使用火车头采集了一些数据,现在就对其中的问题作一个简单说明:

1,火车头对于采用第二种规则生成要采集的列表页的问题:
  就是用比如www.aaa.com/html/(*).html,其中(*)设一个起始终止值的问题,
 由于如果顺次生成比如设置1--10,这当中可能5.html不存在,这时候火车头的程序就会死在这儿,所以对于这种情况,可以给个设定,比如返回404错误,或者其他固定字符的或者返回字符的个数少于多少的自动不采集(因为有的不返回404错误,直接就是返回“你察看的页面不存在之类的”)。

2,自定义标签的入库问题;
 首先自定义标签在入SQL数据库对应的时候会出现错误具体参考
http://bbs.locoy.com/viewthread.php?tid=3684&fpage=1&highlight=%D7%D4%B6%A8%D2%E5%B1%EA%C7%A9 这个帖子的5楼,我的错误和他一样,不知道大家谁解决了, 如果自定义标签数据不能入库,那设置这个我们采集到了有啥用处》?

3,看了自定义入SQL库的情况,应该采用的是ADO链接,既然这样,那么access库等其他库也可以支持,步骤差别应该不大,是吧,主要这样可以入多个库方便数据转入其他采集程序再编辑,因为如果都不编辑,直接数据采集了就入库发表出来,随着大家使用火车头水平的提高,一堆垃圾站就出来了,到时候可能会被封站的,呵呵。

  最后,我还是急需解决自定义标签入库的问题,大家帮我吧,或者给我个例子,呵呵。我发图片
生成的datalink.xml文件内容如下(节选)

- <sql_server_学习网规则>
  <连接字符串>Provider=SQLOLEDB;Data Source=127.0.0.1;User ID=sa; Password=;Initial Catalog=foosun</连接字符串>
  <数据连接1>insert into {study_table}(Caption,bigclass,smallclass,filesize,isVip,UpLoadTime,contentjieshao) values ('[标题]','[自定义:大类]','[自定义:小类]','[自定义:文件大小]','[自定义:是否vip]','[自定义:上传时间]','[内容]')</数据连接1>
  <数据连接2 />
  <数据连接3 />
  <数据连接4 />
  <数据连接5 />
  <数据连接6 />
  </sql_server_学习网规则>

[ 本帖最后由 c123321 于 2006-4-23 11:45 编辑 ]
附件: 您所在的用户组无法下载或查看附件
收到...

软件自定义入库本阶段的确有问题,不过通过手动修改datalink.xml可以解决

哈哈,火车头兄弟,根据签名,应该4月25日前出成果

相信大家等待的2.0版本也不远了吧,哈哈哈

对了,既然火车头说可以通过修改data.xml 文件来入库,为啥我修改成我上面提供的那样子还是不行啊,请给我说明一种可用的办法,我来试验一下,或者给个自由标签的data.xml的例子,我照着作,谢谢,

如果后天就出2.0版本的话那这个问题到此为至,呵呵

再问个问题吧,起始关于去掉内容中的script,超级链接,object等都应该给一个选项,目前如何采集带有内部链接那种站点呢?请给出用正则表达式替换的办法,谢谢,

[ 本帖最后由 c123321 于 2006-4-24 02:24 编辑 ]
返回列表
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)