guanzhouhui 发表于 2008-2-6 10:33:34

求一个遍历提取url规则.

加RMB求一个遍历提取url规则.
目录页

目录页

目录页→内容

目录页

目录页→内容


内容页有可能在n级目录页下面

这是内容页链接入口,主目录页下面可能还有分目录页
http://www.sigmaaldrich.com/homepage/Site_level_pages/CatalogHome.html

这是其中一个内容页
http://www.sigmaaldrich.com/catalog/search/ProductDetail/ALDRICH/407135
                                                             A                  /    B       /C

内容页最后的那一串数字C部分   可能会是纯数字也可能会前面加字母.
B部分 也会有变化不过全是字母
A部分是完全不变的

请高手写个采集提取url的规则,可追加RMB

QQ联系3025961

[ 本帖最后由 guanzhouhui 于 2008-2-7 01:04 编辑 ]

沦陷今生 发表于 2008-2-6 16:51:08

此帖我接了.

guanzhouhui 发表于 2008-2-6 18:02:42

OK

[ 本帖最后由 guanzhouhui 于 2008-2-6 21:24 编辑 ]
页: [1]
查看完整版本: 求一个遍历提取url规则.