火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3085|回复: 8

3.2版的几个BUG及建议(火大大看过来)

[复制链接]
发表于 2007-9-26 18:19:11 | 显示全部楼层 |阅读模式
一直在等3.2出来,我的文章系统是动易,现在已经采集了N千文章了,现在遇到几个问题,在这里发出来让大家共享,同时希望火大大可以看到,一起探讨!!

1、关于WEB在线发布时图片的自动上传
采集内容如下:
<IMG src="./W020070607318704063875.jpg" border=0 OLDSRC="W020070607318704063875.jpg">
如果能在采集内容规则中,可以将图片替换成完整的地址。如:
<IMG src="http://www.xxxxxx.com/uploads/20070506/W020070607318704063875.jpg" border=0
OLDSRC="W020070607318704063875.jpg">
这样的形式最好
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。

2、在发布信息,出错后,信息中以下几种类型:
发内容--WEB发布错误,标识码:
发内容--WEB发布错误,返回代码请查看:
[url=file:///E:\LocoySpider\Data\2-www.lrn.cn\WebError.log]File:///E:\LocoySpider\Data\2-www.lrn.cn\WebError.log[/url]
建议在发内容三个字跟前增加以下内容(任选其一):
记录号
文章链接
文章标题
这样做的目的是为了更好的发现出错在什么地方,可以手工分析页面,找到对应的解决方法。
再进一步能做到直接查看SpiderResult.mdb库内的内容,或是将失败的内容重新发布,就更好了!

3、测试网站采集与正式采集网址数目不同,不知道是不是程序的BUG,请火大大检查
同时建议在采集过程中增加完成采集的数量提示,每一个阶段性的工作完成了,总要生成一个小的报告。
(有朋友说可能是重复网址,我试过了,不重复的也有丢失的)

4、采集过程中,象这样的
<tr><td><div align='left'><a class=13p href=../../../html/2007-9/2007921_1409.html
target=_blank>我是一个好孩子</a></div></td><td width=120 >2007-9-21 10:02:00</td></tr>
采集不到网址。不知道怎么一回事!!!
(已经找到办法,可以用自定义连接的方式进行替换)

5、关于采集内容规则标签的工作顺序问题
现在的工作顺序应当是:
内容排除-----内容替换-----HTML标签排除------文件下载
我觉得这里面有一个小问题:如果象这样的标题:<font size=2>"西气东输"<二线>研究</font>
那么在大多数CMS中,“ "”是不能用的,需要加以替换,而<二线>这两个尖括号,也不要,如果替换成
" ---> “  
< --->  [
> --->  ]
这样,那么标题就变成:[font size=2]“西气东输“[二线]研究,这样下一步的HTML标签排除就
无效了。
所以在规则上,最好可以自定义顺序。如果再能加上第一条所说的,将图片的地址替换成真实的地址,那
么,软件就完美多了。

6、其他的在用的过程中慢慢找...

[ 本帖最后由 gsweiyu 于 2007-9-28 22:01 编辑 ]
 楼主| 发表于 2007-9-26 18:50:03 | 显示全部楼层
问题4已解决:
如下图所示

[ 本帖最后由 gsweiyu 于 2007-9-26 18:51 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2007-9-26 18:54:40 | 显示全部楼层
问题3:
采集完成后任务数量是有的,不细心没有看到。。。。
但数量还是不一致:
测试采集地址:1721
地址库:1488
采集库:1614

不知道这样是怎么一回事

[ 本帖最后由 gsweiyu 于 2007-9-26 19:03 编辑 ]
发表于 2007-9-26 22:33:28 | 显示全部楼层
关于问题3:是否是采集的地址库有重复?被系统过滤掉了?你看看采网址的过程是否系统提示有重复网址。
发表于 2007-9-27 03:35:01 | 显示全部楼层
 楼主| 发表于 2007-9-27 10:46:50 | 显示全部楼层
自己顶上去!!
发表于 2007-9-27 11:00:41 | 显示全部楼层
1、
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。

远程上传,加大了服务器的负担..
 楼主| 发表于 2007-9-27 23:11:49 | 显示全部楼层
原帖由 rq204 于 2007-9-27 11:00 发表
1、
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。

远程上传,加大了服务器的负担..


这位兄台给一个合理的解决方案!
 楼主| 发表于 2007-9-28 22:02:00 | 显示全部楼层
再顶
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-24 18:27

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表