xyls 发表于 2009-3-18 17:12:35

求助:为什么采集不了这种格式的内容呢

是2009年版的火车头采集;采集这个页面的时候发现采集不了就是源码里面有 :<p class="MsoNormal" style="margin: 0cm 0cm 0pt; text-indent: 24pt; mso-char-indent-count: 2.0"><span style="font-size: 12pt; font-family: 楷体_GB2312; mso-ascii-font-family: 'Times New Roman'">一季度国际镍价始终徘徊在</span> 这种类型的就采集不了,好像是从Word里面直接复制后粘贴到网页上的; 同样的采集规则倒是可以成功采集所有内容;同样的页面,如果内容为上面那种格式的话,就采集不了; 请问有高手知道如何解决吗?

xyls 发表于 2009-3-18 17:21:42

不好意思,表达错了;我刚刚重新测试了一下;发现问题不是上面描述的那样,但是我又删除不了帖子;

问题是这样的:就是我按类似这种URL:http://……NewsDisplay.aspx?nid=58988 采集数据的时候,当nid变化的时候,有的页面可以采集,有的页面却提示要登陆才能查看;
但是我已经登陆过了,为什么程序记录不了登陆状态呢?

xyls 发表于 2009-3-18 17:26:06

不知道程序的其它地方是否还要求特殊的设置;
我试过几个需要登陆的站点,基本上都是登陆一会儿,采集不了几个数据,就又没有登陆状态了,挺郁闷的。
比如动网论坛的官方,我采集用心信息一会儿就采集不了了;

娃娃 发表于 2009-3-18 17:42:51

可以采集的

rq204 发表于 2009-3-18 18:34:47

有些网站的登陆信息会隔一小段时间失效的,所以需要重新获取登陆信息.

xyls 发表于 2009-3-19 00:05:41

有些网站的登陆信息会隔一小段时间失效的,所以需要重新获取登陆信息.
rq204 发表于 2009-3-18 18:34 http://bbs.locoy.com/images/common/back.gif

问题是,测试的时候,我在没有重新登陆的时候,就有部分信息是采集不到的,有部分确实仍然可以采集到的,采集不到的原因就是提示要登陆查看。这个问题如何解决呢?
登陆一次之后,出现了这两种情况,奇怪。

怎样解决登陆信息失效的问题呢??


注:用浏览器登陆并不会失效呀。

oyjp 发表于 2009-3-19 00:28:56

可以的,请你查看一下你的设置是否正确
页: [1]
查看完整版本: 求助:为什么采集不了这种格式的内容呢