一个看似简单但用火车采不完全的页面
页面如下:http://new.hep.com.cn/portal/product/index?bk=7238-00
目录内容采集不了,解析不了目录栏内页面的网址
有高手能采到吗? 目录地址:
http://new.hep.com.cn/portal/htmls/B0DCFFE0-78DA-11DD-AF6A-F9AFC4A4ADA4//index.html
如何获取不用多讲了吧! 当然要获取方法了,看目录框的属性也能知道是这个真实网址,但要把目录框里的内容和整个页面的文字内容也采集到一起,火车里设置不了。
页:
[1]