菜鸟的一个疑问。。
比如说我要采集一个网站的信息,首先我要的内容不是框架,而是内容,火车头采集得到的网址都是基本框架(就是网址后面带着很多提交所得到的随机数字)而我用工具包抓到的恰好是内容(提交的信息吧)。我想用工具包抓取的网址,来进行多面采集,想采集所有的页面。后面想了下(的到高人的指点),应该采集不了,因为火车头采集到得网址没有包含工具包采集到得网址,那不是没有地址,也不能采嘛,那不是等于说,你有钱,找不到商店买东西嘛。用网址替换也实行不了吧。
比如,我工具包抓到的网址是:http://bbbb/addr/detail/u/45135/type/0w=n&_=0.9558435445450697
而火车头采集的网址是不包含这个http://bbbb/addr/detail/u/45135/type/0w=n&_=0.9558435445450697的。
替换应该也是无用的吧。
那该怎么办呢。。。。 无人观望。自己顶起
页:
[1]