chenshao 发表于 2008-9-10 11:28:11

采集多页面的问题

火车头多页面能不能支持3层一起采集的?
也就是说,我采集A页面的内容,也想同时采集C页面的内容.
但是由A页面上得不到C页面的地址,只能在A页面上得到B页面的地址,再通过B页面得到C页面的地址.

可是问题是,火车头现在是不是只能在A页面上得到B页面的地址,而无法再从B页面得到C页面的地址了?

chenshao 发表于 2008-9-10 11:30:54

其实,我是在采集一个软件站.
先采集列表页,然后再采集内容页,那个站的下载地址是打开新窗口才有的.
所以再采集下载页面,又发现那个"点击下载"并不是真的地址,而是要再打开一个页面,这个页面的代码才有真实的地址...
可是内容页跟这个有真实地址的页面之间又没有联系的.....

soarb 发表于 2008-9-10 13:02:54

2008版可以。结合接口,增加一标签判读前面所有标签是否采集完成。如为真则将pageurl字段的值换成第二页面即可。即最后不加下载地址这个标签。
页: [1]
查看完整版本: 采集多页面的问题