eocol 发表于 2008-1-28 14:45:43

象这种无后缀的列表页如何采集

我也在找这个解决办法,知道的兄弟贴个出来撒

比如这种
http://www.momastore.org/museum/ ... _11523_11466_-1___1
http://www.momastore.org/museum/ ... _11523_11466_-1___2
http://www.momastore.org/museum/ ... _11523_11466_-1___3
只能采第一页

初来炸道 发表于 2008-1-28 15:24:32

采集地址这样:

http://www.momastore.org/museum/moma/CategoryDisplay_10451_10001_11523_11466_-1___(*)

eocol 发表于 2008-1-28 15:50:21

问题关键应该不是这个
http://www.momastore.org/museum/moma/categorydisplay_10451_10001_11523_11466_-1___(*)/ProductDisplay_Brush Vase_10451_10001_43859_-1_11523_11466_null__

主要是二级目录之后的地址不正确
如 http://www.momastore.org/museum/moma/categorydisplay_10451_10001_11523_11466_-1___/ProductDisplay_Brush Vase_10451_10001_43859_-1_11523_11466_null__
真实地址应该是
http://www.momastore.org/museum/moma/ProductDisplay_Brush Vase_10451_10001_43859_-1_11523_11466_null__

eocol 发表于 2008-2-27 13:08:05

象这个地址获取的链接http://www.momastore.org/museum/moma/CategoryDisplay_10451_10001_11451_11628_-1___1_all获得的正确地址应该是http://www.momastore.org/museum/moma/ProductDisplay_Activity School Bus_10451_10001_46529_-1_11451_11628_null__可现在他总是在采集页面在加上的url以致路径不对 无法采集
多了一个 categorydisplay_10451_10001_11451_11628_-1___1_all
http://www.momastore.org/museum/moma/categorydisplay_10451_10001_11451_11628_-1___1_all/ProductDisplay_Activity School Bus_10451_10001_46529_-1_11451_11628_null__这个采集规则该怎么设置呢?

[ 本帖最后由 eocol 于 2008-2-27 13:09 编辑 ]

eocol 发表于 2008-2-27 13:28:22

他妈的都要崩溃了,这论坛我都翻了几篇没找着 怎么搜啊?

anyangbbs 发表于 2008-2-28 13:38:22

列表页
http://www.momastore.org/museum/ ... 1_11523_11466_-1___(*)

文章页必须包含
http://www.momastore.org/museum/moma/(*)
页: [1]
查看完整版本: 象这种无后缀的列表页如何采集