申请会员
登录
搜索
帮助
火车采集器|信息数据采集论坛
»
采集器讨论区
»
原1.X版本子讨论区
» 对火车头采集器的几点建议.
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
对火车头采集器的几点建议.
yjkm169
注册会员
UID
4335
帖子
3
活跃度
1 点
火车车厢
4 节
注册时间
2006-7-22
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2006-7-23 11:04
只看该作者
对火车头采集器的几点建议.
昨天第一次使用火车头,说点建议,我使用的是1.2.1版本,2.0不知道哪里下,不清楚是否有这样的问题。
1、采集的时候遇到错误页面(不符合采集规则的页面),批量采集就会卡住。我觉得这个问题应该很好解决,遇到不符合规则的页面,规则里的标签就全赋值为空不就可以了,为什么要卡在那里呢?
2、空格丢失的问题。1.2.1版本加入了URLencode发送post数据,但是怎么只对默认的内容标签有用呢?其他标签也需要啊,这个程序上实现应该也很容易吧?所有标签都urlencode不就可以了?
3、对于网址规则里能不能加入一个规则,就是判断title内容是否包含某关键词。如果有这个功能,就能简单实现定向采集了,比如说我只采集title包含“火车头”这个关键词的页面。这个功能相信会非常受站长喜欢。
UID
4335
帖子
3
精华
0
积分
1
活跃度
1 点
火车车厢
4 节
阅读权限
10
在线时间
15 小时
注册时间
2006-7-22
最后登录
2008-8-22
查看详细资料
TOP
dr5d
^火车_嘉宾^
UID
2754
帖子
114
活跃度
110 点
火车车厢
50 节
注册时间
2006-5-19
个人空间
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2006-7-23 21:34
只看该作者
1、可能是因为线程死掉了,火车头没有自动重启线程。这时,现在只能将程序全部停止,然后开始
当目前网址访问出错时,就会出现这种情况。在2。0,只要重新启动就行了。1。21如果重新启动会重复采集
2、同意!
3、是啊,这功能很好。当某采集的内容,包含或不包含某内容时,本次采集才有效,否则忽略。
例如:假如我要采集图片,当图片内容不是"NO PIC"时,才post到cms模块,这个功能很好。建议火车头加上
UID
2754
帖子
114
精华
0
积分
115
活跃度
110 点
火车车厢
50 节
阅读权限
40
在线时间
155 小时
注册时间
2006-5-19
最后登录
2007-3-17
查看个人网站
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
论坛管理及公告
论坛记事、活动、培训区
火车采集器交流与讨论
程序发布
悬赏求助区
采集器讨论区
原1.X版本子讨论区
原2.0版本子讨论区
使用教程区
模块资源区
原1.2.0/1.2.1版本模块保留区
站点任务规则资源区
原1.X版本规则保留区
原2.0版本规则保留区
BUG报告
采集器资源求购区
程序建议区
各种CMS,论坛讨论区(与3.2发布同时开设)
Discuz! | & Supsite
PHPWind & VeryCMS
PHPCMS
DedeCMS
Powereasy动易
Foosun风讯
HBCMS
Dvbbs & DvPHP
WordPress 等Blog程序
Joomla等国外程序
ECMS帝国
新云程序
站长交流区
建站交流
网站赚钱
SEO技术交流
网站系统经验分享
火车域名注册
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计
Powered by
Discuz!
6.0.0
© 2001-2007
Comsenz Technology Ltd
Processed in 0.126790 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-11 19:46
皖ICP备06000549
清除 Cookies
-
联系我们
-
火车采集器官方站
-
静态归档
>
界面风格
----------
默认风格
喝彩奥运
深邃永恒
粉妆精灵
诗意田园
春意盎然