|

- UID
- 1992
- 帖子
- 23
- 活跃度
- 20 点
- 火车车厢
- 5 节
- 注册时间
- 2006-4-16
|
1楼
发表于 2006-4-23 11:41
| 只看该作者
使用火车头的几点体会和建议
本人使用火车头采集了一些数据,现在就对其中的问题作一个简单说明:
1,火车头对于采用第二种规则生成要采集的列表页的问题:
就是用比如www.aaa.com/html/(*).html,其中(*)设一个起始终止值的问题,
由于如果顺次生成比如设置1--10,这当中可能5.html不存在,这时候火车头的程序就会死在这儿,所以对于这种情况,可以给个设定,比如返回404错误,或者其他固定字符的或者返回字符的个数少于多少的自动不采集(因为有的不返回404错误,直接就是返回“你察看的页面不存在之类的”)。
2,自定义标签的入库问题;
首先自定义标签在入SQL数据库对应的时候会出现错误具体参考
http://bbs.locoy.com/viewthread.php?tid=3684&fpage=1&highlight=%D7%D4%B6%A8%D2%E5%B1%EA%C7%A9 这个帖子的5楼,我的错误和他一样,不知道大家谁解决了, 如果自定义标签数据不能入库,那设置这个我们采集到了有啥用处》?
3,看了自定义入SQL库的情况,应该采用的是ADO链接,既然这样,那么access库等其他库也可以支持,步骤差别应该不大,是吧,主要这样可以入多个库方便数据转入其他采集程序再编辑,因为如果都不编辑,直接数据采集了就入库发表出来,随着大家使用火车头水平的提高,一堆垃圾站就出来了,到时候可能会被封站的,呵呵。
最后,我还是急需解决自定义标签入库的问题,大家帮我吧,或者给我个例子,呵呵。我发图片
生成的datalink.xml文件内容如下(节选)
- <sql_server_学习网规则>
<连接字符串>Provider=SQLOLEDB;Data Source=127.0.0.1;User ID=sa; Password=;Initial Catalog=foosun</连接字符串>
<数据连接1>insert into {study_table}(Caption,bigclass,smallclass,filesize,isVip,UpLoadTime,contentjieshao) values ('[标题]','[自定义:大类]','[自定义:小类]','[自定义:文件大小]','[自定义:是否vip]','[自定义:上传时间]','[内容]')</数据连接1>
<数据连接2 />
<数据连接3 />
<数据连接4 />
<数据连接5 />
<数据连接6 />
</sql_server_学习网规则>
[ 本帖最后由 c123321 于 2006-4-23 11:45 编辑 ] |
附件: 您所在的用户组无法下载或查看附件
|