更深的蓝 发表于 2008-10-26 23:36:16

采集,碰到个怪问题

今天打算采集一个ppq网站的内容,是这样操作的:

先添加网站网站----添加任务---编写ppq的采集规则---在线发布到discuz网站----然后发现规则有点问题,就修改规则------再发布到discuz网站---------发现发布不成功------修改发布为“保存到本地txt文件”--------成功。所以说明采集规则没错。

于是怀疑“发布模块”有问题,就用火车自己带的“火车测试站点”里的采集任务测试,在线发布到我的discuz网站,结果成功。------因此说明我的“发布模块”没有问题。

既然“发布模块”和ppq的的“采集规则”己都没有错,为什么在线发布不可以成功呢?我百思不得其解。。。。

后来我关机去吃饭了,回来开机再试验了一下,居然一下就成功了!ali15ls

好奇怪哦,不知道为什么。

[ 本帖最后由 更深的蓝 于 2008-10-26 23:37 编辑 ]

sushy 发表于 2008-10-27 01:06:03

呵呵,你的采集规则没问题,火车的发布规则没问题。

这问题出在哪里呢?

你的采集是干什么的?是喂饭的。火车发布是想吃稀饭,结果你采集的是干饭,火车当然不好好干活了。

建议这样检查:

1. 检查火车所要的标签名称和你采集的标签是否一致。比如,这里是比如,我没用过discuz模块发布,火车测试的标签为“标题”,而你采集的标签为“题名”,错误!修正标签名。

2. 检查火车测试时候提交的标签你的采集中是否都有。比如,火车发布时提交了4个标签,结果你只采集了3个标签,错误!补齐。

3. 检查字符串长度,比如你的dizcuz目标站限制了内容不少于10个字符,不多余10000个字符,火车测试的时候提交的是200个字符,而你实际采集到表中的只有5个字符,错误!重新采集,过滤较短或者较长的内容。

4. 主要看返回值了。因为正确的只有一种情况,火车肯定返回发布成功。错误的,则有很多可能。

当你出错的时候,火车会返回两种可能,

一种可能是“内容含违规内容”或者“标题太短”(这里是举例),这时候你就知道,哦,原来违规内容不能发或者标题太短。按提示修改,使之符合你的网站标准。

第二种可能是“是否发布成功未知,请登录到网站查看”,出现这种情况,是因为你提交的数据错误,但是该错误提示信息不在你的错误返回值列表中。(就像你打了某人一拳,你听见他喊“疼”,你就知道用力了,你听见他喊“瘙痒啊”,你就知道打轻了;如果他可能返回了“what are you doing”,但你搞不懂了,你就需要把他翻译过来,他究竟喊的是什么,再做进一步处理)。如果这时候你应该在网站上手工将你所采集到的信息提交,你就知道为什么错了(你翻译过来以后,才知道原来他是惊讶),将该错误关键词添加到错误返回值列表中,并且对你提交的内容做相应的调整。

火车采集器默认的模块是针对默认的discuz的发布页的,而且是针对某一个版本的,比如你用discuz5 的模块往discuz 6的版本上发布,那肯定是错误的。

检查好上面这些信息,我相信,你能顺利发布。

道理很简单,你的所有规则都是正确的,discuz没理由不让你发表啊。

当然还要考虑一个情况,就是你的论坛是否开启了防灌水功能,如果开启了,那也应该将该错误关键字添加到 错误返回值列表中。


该规则对于任何一个网站都适合。

[ 本帖最后由 sushy 于 2008-10-27 01:07 编辑 ]

sushy 发表于 2008-10-27 01:16:46

哦,看来我偏题了,楼主说他先没发布成功,后来发布成功了。大约,应该,是你吃饭那功夫,火车休息了一下,重新调整了状态,好好干活了吧:lol

xyz5200 发表于 2008-10-27 10:24:44

好心态。好办法,希望多多注意。
页: [1]
查看完整版本: 采集,碰到个怪问题