发新话题
打印

2.0 发布的内容只是采集到的内容的一部分,为什么?

2.0 发布的内容只是采集到的内容的一部分,为什么?

测试里采集到的内容比发布到网页上的多得多

TOP

有人遇到类似的问题吗

TOP

回复 #1 GoTop 的帖子

我的也是!想不明白是咋回事呢!

TOP

里面有 & nbsp;  < 这样的标签后面的就无法采集到

TOP

我也是,

TOP

不懂了吧,没文化了吧

TOP

我的也是一样

采集内容只有一部份,晕啊

进入系统库看却有全部,什么问题?

TOP

引用:
原帖由 sweety 于 2006-8-13 11:10 发表
里面有 & nbsp;  < 这样的标签后面的就无法采集到
嗯,就是这个问题

把& nbsp;  <这些替换调好象也没有用

TOP

引用:
原帖由 GoTop 于 2006-8-13 17:38 发表


嗯,就是这个问题

把& nbsp;  <这些替换调好象也没有用
有用啊!我的可以了!我把 & 替换成 ☆ 在web后台的源码里面转回 & 就可以了

现在的问题是!每次开始任务后采集的地址乱啊!测试采集的时候是正常的,一旦开始,就出现什么,去除上次重复数据,调用上次失败地址,等等,本来只有40多条文章,一下长到140条,有用的,没用的一起来,晕!!!

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.189272 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 19:09 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档