icetroy 发表于 2006-12-16 16:52:29

一个没有何任防采集而火车头无法采集的网站(未解决)

http://www.engessay.com/gaozhong/
谁能帮我写一下上面的这个页面的采集规则?我写了好久都不对

[ 本帖最后由 icetroy 于 2006-12-24 14:52 编辑 ]

netdream 发表于 2006-12-16 20:27:21

这站的列表页内置IE都看不到,好像防采了,但内容页可采。可用手工添加地址链接后,再采内容页面

xyyfx 发表于 2006-12-17 12:30:14

回复 #1 icetroy 的帖子

这个网站使用的是动易2005的系统,应该不会防采集,我估计是这个网页超链接的问题,火车有的时候对这种相对路径识别不是很好,对绝对路径倒是瞒好的!这个网页里的源码超连接都是<a href="/xxx.html"></a>相对根目录的!值得注意!

xyyfx 发表于 2006-12-17 12:32:02

补充:不过你要是想采集他 的全部文章,你可以把你说的那个地址当作内容页面,使用循环采集,先采集地址,然后导出成TXT,这样也可以的!

icetroy 发表于 2006-12-17 23:09:01

真好,多谢各位了

icetroy 发表于 2006-12-24 14:51:52

我想采集他的一个栏目,要怎么做,有没有高手可以指导一下?
页: [1]
查看完整版本: 一个没有何任防采集而火车头无法采集的网站(未解决)