采集,碰到个怪问题
今天打算采集一个ppq网站的内容,是这样操作的:先添加网站网站----添加任务---编写ppq的采集规则---在线发布到discuz网站----然后发现规则有点问题,就修改规则------再发布到discuz网站---------发现发布不成功------修改发布为“保存到本地txt文件”--------成功。所以说明采集规则没错。
于是怀疑“发布模块”有问题,就用火车自己带的“火车测试站点”里的采集任务测试,在线发布到我的discuz网站,结果成功。------因此说明我的“发布模块”没有问题。
既然“发布模块”和ppq的的“采集规则”己都没有错,为什么在线发布不可以成功呢?我百思不得其解。。。。
后来我关机去吃饭了,回来开机再试验了一下,居然一下就成功了!ali15ls
好奇怪哦,不知道为什么。
[ 本帖最后由 更深的蓝 于 2008-10-26 23:37 编辑 ] 呵呵,你的采集规则没问题,火车的发布规则没问题。
这问题出在哪里呢?
你的采集是干什么的?是喂饭的。火车发布是想吃稀饭,结果你采集的是干饭,火车当然不好好干活了。
建议这样检查:
1. 检查火车所要的标签名称和你采集的标签是否一致。比如,这里是比如,我没用过discuz模块发布,火车测试的标签为“标题”,而你采集的标签为“题名”,错误!修正标签名。
2. 检查火车测试时候提交的标签你的采集中是否都有。比如,火车发布时提交了4个标签,结果你只采集了3个标签,错误!补齐。
3. 检查字符串长度,比如你的dizcuz目标站限制了内容不少于10个字符,不多余10000个字符,火车测试的时候提交的是200个字符,而你实际采集到表中的只有5个字符,错误!重新采集,过滤较短或者较长的内容。
4. 主要看返回值了。因为正确的只有一种情况,火车肯定返回发布成功。错误的,则有很多可能。
当你出错的时候,火车会返回两种可能,
一种可能是“内容含违规内容”或者“标题太短”(这里是举例),这时候你就知道,哦,原来违规内容不能发或者标题太短。按提示修改,使之符合你的网站标准。
第二种可能是“是否发布成功未知,请登录到网站查看”,出现这种情况,是因为你提交的数据错误,但是该错误提示信息不在你的错误返回值列表中。(就像你打了某人一拳,你听见他喊“疼”,你就知道用力了,你听见他喊“瘙痒啊”,你就知道打轻了;如果他可能返回了“what are you doing”,但你搞不懂了,你就需要把他翻译过来,他究竟喊的是什么,再做进一步处理)。如果这时候你应该在网站上手工将你所采集到的信息提交,你就知道为什么错了(你翻译过来以后,才知道原来他是惊讶),将该错误关键词添加到错误返回值列表中,并且对你提交的内容做相应的调整。
火车采集器默认的模块是针对默认的discuz的发布页的,而且是针对某一个版本的,比如你用discuz5 的模块往discuz 6的版本上发布,那肯定是错误的。
检查好上面这些信息,我相信,你能顺利发布。
道理很简单,你的所有规则都是正确的,discuz没理由不让你发表啊。
当然还要考虑一个情况,就是你的论坛是否开启了防灌水功能,如果开启了,那也应该将该错误关键字添加到 错误返回值列表中。
该规则对于任何一个网站都适合。
[ 本帖最后由 sushy 于 2008-10-27 01:07 编辑 ] 哦,看来我偏题了,楼主说他先没发布成功,后来发布成功了。大约,应该,是你吃饭那功夫,火车休息了一下,重新调整了状态,好好干活了吧:lol 好心态。好办法,希望多多注意。
页:
[1]