报告:09sp2比起09sp1的退步之处
上午测试UBB转换时把sp1升级成sp2后发现的问题,原来09sp2比起09sp1居然还有退步之处。先看引一个采集为乱麻的帖子,版主答复的是去电自动识别,变为人工制定编码。
http://bbs.locoy.com/spider-41328-1-1.html。
我对比使用了sp1和sp2采集同样的内容,sp2自动识别编码的成功率比sp1差好多哦。
不知道这是为什么。升级后直接导致的恶果是,以前一个采集任务规则里面不通的标签可以采集两个编码不通的网页,升级后这样的任务基本上不可能了,准有一个是乱码。
应用范围缩小了,强烈希望找出自动识别成功率降低的原因。
举例,使用源代码查看器采集一些script里面的调用的脚本页面内容,sp1的强于sp2 没用过sp1,沙发一个
页:
[1]