象这种无后缀的列表页如何采集
我也在找这个解决办法,知道的兄弟贴个出来撒比如这种
http://www.momastore.org/museum/ ... _11523_11466_-1___1
http://www.momastore.org/museum/ ... _11523_11466_-1___2
http://www.momastore.org/museum/ ... _11523_11466_-1___3
只能采第一页 采集地址这样:
http://www.momastore.org/museum/moma/CategoryDisplay_10451_10001_11523_11466_-1___(*) 问题关键应该不是这个
http://www.momastore.org/museum/moma/categorydisplay_10451_10001_11523_11466_-1___(*)/ProductDisplay_Brush Vase_10451_10001_43859_-1_11523_11466_null__
主要是二级目录之后的地址不正确
如 http://www.momastore.org/museum/moma/categorydisplay_10451_10001_11523_11466_-1___/ProductDisplay_Brush Vase_10451_10001_43859_-1_11523_11466_null__
真实地址应该是
http://www.momastore.org/museum/moma/ProductDisplay_Brush Vase_10451_10001_43859_-1_11523_11466_null__ 象这个地址获取的链接http://www.momastore.org/museum/moma/CategoryDisplay_10451_10001_11451_11628_-1___1_all获得的正确地址应该是http://www.momastore.org/museum/moma/ProductDisplay_Activity School Bus_10451_10001_46529_-1_11451_11628_null__可现在他总是在采集页面在加上的url以致路径不对 无法采集
多了一个 categorydisplay_10451_10001_11451_11628_-1___1_all
http://www.momastore.org/museum/moma/categorydisplay_10451_10001_11451_11628_-1___1_all/ProductDisplay_Activity School Bus_10451_10001_46529_-1_11451_11628_null__这个采集规则该怎么设置呢?
[ 本帖最后由 eocol 于 2008-2-27 13:09 编辑 ] 他妈的都要崩溃了,这论坛我都翻了几篇没找着 怎么搜啊? 列表页
http://www.momastore.org/museum/ ... 1_11523_11466_-1___(*)
文章页必须包含
http://www.momastore.org/museum/moma/(*)
页:
[1]