求助:为什么采集不了这种格式的内容呢
是2009年版的火车头采集;采集这个页面的时候发现采集不了就是源码里面有 :<p class="MsoNormal" style="margin: 0cm 0cm 0pt; text-indent: 24pt; mso-char-indent-count: 2.0"><span style="font-size: 12pt; font-family: 楷体_GB2312; mso-ascii-font-family: 'Times New Roman'">一季度国际镍价始终徘徊在</span> 这种类型的就采集不了,好像是从Word里面直接复制后粘贴到网页上的; 同样的采集规则倒是可以成功采集所有内容;同样的页面,如果内容为上面那种格式的话,就采集不了; 请问有高手知道如何解决吗? 不好意思,表达错了;我刚刚重新测试了一下;发现问题不是上面描述的那样,但是我又删除不了帖子;问题是这样的:就是我按类似这种URL:http://……NewsDisplay.aspx?nid=58988 采集数据的时候,当nid变化的时候,有的页面可以采集,有的页面却提示要登陆才能查看;
但是我已经登陆过了,为什么程序记录不了登陆状态呢? 不知道程序的其它地方是否还要求特殊的设置;
我试过几个需要登陆的站点,基本上都是登陆一会儿,采集不了几个数据,就又没有登陆状态了,挺郁闷的。
比如动网论坛的官方,我采集用心信息一会儿就采集不了了; 可以采集的 有些网站的登陆信息会隔一小段时间失效的,所以需要重新获取登陆信息. 有些网站的登陆信息会隔一小段时间失效的,所以需要重新获取登陆信息.
rq204 发表于 2009-3-18 18:34 http://bbs.locoy.com/images/common/back.gif
问题是,测试的时候,我在没有重新登陆的时候,就有部分信息是采集不到的,有部分确实仍然可以采集到的,采集不到的原因就是提示要登陆查看。这个问题如何解决呢?
登陆一次之后,出现了这两种情况,奇怪。
怎样解决登陆信息失效的问题呢??
注:用浏览器登陆并不会失效呀。 可以的,请你查看一下你的设置是否正确
页:
[1]