求一个遍历提取url规则.
加RMB求一个遍历提取url规则.目录页
↓
目录页
↓
目录页→内容
↓
目录页
↓
目录页→内容
内容页有可能在n级目录页下面
这是内容页链接入口,主目录页下面可能还有分目录页
http://www.sigmaaldrich.com/homepage/Site_level_pages/CatalogHome.html
这是其中一个内容页
http://www.sigmaaldrich.com/catalog/search/ProductDetail/ALDRICH/407135
A / B /C
内容页最后的那一串数字C部分 可能会是纯数字也可能会前面加字母.
B部分 也会有变化不过全是字母
A部分是完全不变的
请高手写个采集提取url的规则,可追加RMB
QQ联系3025961
[ 本帖最后由 guanzhouhui 于 2008-2-7 01:04 编辑 ] 此帖我接了. OK
[ 本帖最后由 guanzhouhui 于 2008-2-6 21:24 编辑 ]
页:
[1]