rgz 发表于 2009-8-21 02:41:44

一个看似简单但用火车采不完全的页面

页面如下:
http://new.hep.com.cn/portal/product/index?bk=7238-00

目录内容采集不了,解析不了目录栏内页面的网址
有高手能采到吗?

都市乞丐 发表于 2009-8-21 08:39:43

目录地址:
http://new.hep.com.cn/portal/htmls/B0DCFFE0-78DA-11DD-AF6A-F9AFC4A4ADA4//index.html

如何获取不用多讲了吧!

rgz 发表于 2009-8-21 17:06:49

当然要获取方法了,看目录框的属性也能知道是这个真实网址,但要把目录框里的内容和整个页面的文字内容也采集到一起,火车里设置不了。
页: [1]
查看完整版本: 一个看似简单但用火车采不完全的页面