gsweiyu 发表于 2007-9-26 18:19:11

3.2版的几个BUG及建议(火大大看过来)

一直在等3.2出来,我的文章系统是动易,现在已经采集了N千文章了,现在遇到几个问题,在这里发出来让大家共享,同时希望火大大可以看到,一起探讨!!

1、关于WEB在线发布时图片的自动上传
采集内容如下:
<IMG src="./W020070607318704063875.jpg" border=0 OLDSRC="W020070607318704063875.jpg">
如果能在采集内容规则中,可以将图片替换成完整的地址。如:
<IMG src="http://www.xxxxxx.com/uploads/20070506/W020070607318704063875.jpg" border=0
OLDSRC="W020070607318704063875.jpg">
这样的形式最好
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。

2、在发布信息,出错后,信息中以下几种类型:
发内容--WEB发布错误,标识码:
发内容--WEB发布错误,返回代码请查看:www.lrn.cn\WebError.log]File:///E:\LocoySpider\Data\2-www.lrn.cn\WebError.log
建议在发内容三个字跟前增加以下内容(任选其一):
记录号
文章链接
文章标题
这样做的目的是为了更好的发现出错在什么地方,可以手工分析页面,找到对应的解决方法。
再进一步能做到直接查看SpiderResult.mdb库内的内容,或是将失败的内容重新发布,就更好了!

3、测试网站采集与正式采集网址数目不同,不知道是不是程序的BUG,请火大大检查
同时建议在采集过程中增加完成采集的数量提示,每一个阶段性的工作完成了,总要生成一个小的报告。
(有朋友说可能是重复网址,我试过了,不重复的也有丢失的)

4、采集过程中,象这样的
<tr><td><div align='left'><a class=13p href=../../../html/2007-9/2007921_1409.html
target=_blank>我是一个好孩子</a></div></td><td width=120 >2007-9-21 10:02:00</td></tr>
采集不到网址。不知道怎么一回事!!!
(已经找到办法,可以用自定义连接的方式进行替换)

5、关于采集内容规则标签的工作顺序问题
现在的工作顺序应当是:
内容排除-----内容替换-----HTML标签排除------文件下载
我觉得这里面有一个小问题:如果象这样的标题:<font size=2>"西气东输"<二线>研究</font>
那么在大多数CMS中,“ "”是不能用的,需要加以替换,而<二线>这两个尖括号,也不要,如果替换成
" ---> “
< --->[
> --->]
这样,那么标题就变成:“西气东输“[二线]研究,这样下一步的HTML标签排除就
无效了。
所以在规则上,最好可以自定义顺序。如果再能加上第一条所说的,将图片的地址替换成真实的地址,那
么,软件就完美多了。

6、其他的在用的过程中慢慢找...

[ 本帖最后由 gsweiyu 于 2007-9-28 22:01 编辑 ]

gsweiyu 发表于 2007-9-26 18:50:03

问题4已解决:
如下图所示

[ 本帖最后由 gsweiyu 于 2007-9-26 18:51 编辑 ]

gsweiyu 发表于 2007-9-26 18:54:40

问题3:
采集完成后任务数量是有的,不细心没有看到。。。。
但数量还是不一致:
测试采集地址:1721
地址库:1488
采集库:1614

不知道这样是怎么一回事

[ 本帖最后由 gsweiyu 于 2007-9-26 19:03 编辑 ]

chinabobble 发表于 2007-9-26 22:33:28

关于问题3:是否是采集的地址库有重复?被系统过滤掉了?你看看采网址的过程是否系统提示有重复网址。

caijuntc 发表于 2007-9-27 03:35:01

:ali12ls :ali12ls

gsweiyu 发表于 2007-9-27 10:46:50

自己顶上去!!

rq204 发表于 2007-9-27 11:00:41

1、
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。

远程上传,加大了服务器的负担..

gsweiyu 发表于 2007-9-27 23:11:49

原帖由 rq204 于 2007-9-27 11:00 发表 http://bbs.locoy.com/images/common/back.gif
1、
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。

远程上传,加大了服务器的负担..

这位兄台给一个合理的解决方案!

gsweiyu 发表于 2007-9-28 22:02:00

再顶
页: [1]
查看完整版本: 3.2版的几个BUG及建议(火大大看过来)