abbba 发表于 2007-3-19 13:59:17

对于同时采集两个页面的一点想法!同时提一个建议!

对于同时采集两个页面的一点想法!同时提一个建议!

最近在研究一个网站的采集时遇到一点问题,具体为:
要采集的内容分布在两个页面,简称为:a.html与b.html
如果把两个页面结合在一起呢?据说企业版是可以同时采集两个不同页面的,但是我们手中没有企业版,那能不能取巧一下呢?
我想到一个想法就是:
能不能将a.html和b.html的内容分别入到不同的字段里,比如帝国news表中的smalltext与text字段中,然后就是同时读出来,这样就可以继续再采集一次,就可以采集到完整的页面了!

同时这里面就存在一个问题,有许多链接是相对网址,这就存在如何转化为绝对网址的问题,如果网址前缀是不变的,那就好办了,如果是可变的,就麻烦了!

所以如果下个版本能够将网址转化为绝对网址,或者能够像是一些模板系统一样,提供许多可以供调用的标签,比如说来源页面等,就会更方便了!

rq204 发表于 2007-3-19 17:29:37

比如说来源页面等, 你也不好好看看,火车哪里没这标签了........



只要两个页面有联系,就是网址有关系,也不一定要完整的网址呀..............
页: [1]
查看完整版本: 对于同时采集两个页面的一点想法!同时提一个建议!