一个没有何任防采集而火车头无法采集的网站(未解决)
http://www.engessay.com/gaozhong/谁能帮我写一下上面的这个页面的采集规则?我写了好久都不对
[ 本帖最后由 icetroy 于 2006-12-24 14:52 编辑 ] 这站的列表页内置IE都看不到,好像防采了,但内容页可采。可用手工添加地址链接后,再采内容页面
回复 #1 icetroy 的帖子
这个网站使用的是动易2005的系统,应该不会防采集,我估计是这个网页超链接的问题,火车有的时候对这种相对路径识别不是很好,对绝对路径倒是瞒好的!这个网页里的源码超连接都是<a href="/xxx.html"></a>相对根目录的!值得注意! 补充:不过你要是想采集他 的全部文章,你可以把你说的那个地址当作内容页面,使用循环采集,先采集地址,然后导出成TXT,这样也可以的! 真好,多谢各位了 我想采集他的一个栏目,要怎么做,有没有高手可以指导一下?
页:
[1]