|
一直在等3.2出来,我的文章系统是动易,现在已经采集了N千文章了,现在遇到几个问题,在这里发出来让大家共享,同时希望火大大可以看到,一起探讨!!
1、关于WEB在线发布时图片的自动上传
采集内容如下:
<IMG src="./W020070607318704063875.jpg" border=0 OLDSRC="W020070607318704063875.jpg">
如果能在采集内容规则中,可以将图片替换成完整的地址。如:
<IMG src="http://www.xxxxxx.com/uploads/20070506/W020070607318704063875.jpg" border=0
OLDSRC="W020070607318704063875.jpg">
这样的形式最好
一般而言,图片的地址都是相对地址,而我们需要做的就是将相对地址替换成绝对地址,这样,大多数
CMS都可以自动上传远程图片,大大减轻了后续的工作量。
2、在发布信息,出错后,信息中以下几种类型:
发内容--WEB发布错误,标识码:
发内容--WEB发布错误,返回代码请查看:[url=file:///E:\LocoySpider\Data\2-www.lrn.cn\WebError.log]File:///E:\LocoySpider\Data\2-www.lrn.cn\WebError.log[/url]
建议在发内容三个字跟前增加以下内容(任选其一):
记录号
文章链接
文章标题
这样做的目的是为了更好的发现出错在什么地方,可以手工分析页面,找到对应的解决方法。
再进一步能做到直接查看SpiderResult.mdb库内的内容,或是将失败的内容重新发布,就更好了!
3、测试网站采集与正式采集网址数目不同,不知道是不是程序的BUG,请火大大检查
同时建议在采集过程中增加完成采集的数量提示,每一个阶段性的工作完成了,总要生成一个小的报告。
(有朋友说可能是重复网址,我试过了,不重复的也有丢失的)
4、采集过程中,象这样的
<tr><td><div align='left'><a class=13p href=../../../html/2007-9/2007921_1409.html
target=_blank>我是一个好孩子</a></div></td><td width=120 >2007-9-21 10:02:00</td></tr>
采集不到网址。不知道怎么一回事!!!
(已经找到办法,可以用自定义连接的方式进行替换)
5、关于采集内容规则标签的工作顺序问题
现在的工作顺序应当是:
内容排除-----内容替换-----HTML标签排除------文件下载
我觉得这里面有一个小问题:如果象这样的标题:<font size=2>"西气东输"<二线>研究</font>
那么在大多数CMS中,“ "”是不能用的,需要加以替换,而<二线>这两个尖括号,也不要,如果替换成
" ---> “
< ---> [
> ---> ]
这样,那么标题就变成:[font size=2]“西气东输“[二线]研究,这样下一步的HTML标签排除就
无效了。
所以在规则上,最好可以自定义顺序。如果再能加上第一条所说的,将图片的地址替换成真实的地址,那
么,软件就完美多了。
6、其他的在用的过程中慢慢找...
[ 本帖最后由 gsweiyu 于 2007-9-28 22:01 编辑 ] |
|