采集多页面的问题
火车头多页面能不能支持3层一起采集的?也就是说,我采集A页面的内容,也想同时采集C页面的内容.
但是由A页面上得不到C页面的地址,只能在A页面上得到B页面的地址,再通过B页面得到C页面的地址.
可是问题是,火车头现在是不是只能在A页面上得到B页面的地址,而无法再从B页面得到C页面的地址了? 其实,我是在采集一个软件站.
先采集列表页,然后再采集内容页,那个站的下载地址是打开新窗口才有的.
所以再采集下载页面,又发现那个"点击下载"并不是真的地址,而是要再打开一个页面,这个页面的代码才有真实的地址...
可是内容页跟这个有真实地址的页面之间又没有联系的..... 2008版可以。结合接口,增加一标签判读前面所有标签是否采集完成。如为真则将pageurl字段的值换成第二页面即可。即最后不加下载地址这个标签。
页:
[1]