xeszero 发表于 2011-11-20 09:01:48

采集器如何才能保存来源url的信息,有一些新链接是需要老链接的参数的

比如说:从h t t p:/ /calssid =8 这个网页中可以得到articleid=3这连个参数
如何组合成新的链接 :h t t p: / /8/articleid=3 ?
这个网页源码中是没有包含原始链接的。

如果采集器在采集链接的时候除了新链接入库外,还将来源链接同时入库,问题就解决了。先随便生成一个h t t p:///x/articleid=3 ,然后将数据库导出,把x替换成相对应的来源来源链接中的classid就行了。


采集器如何能保存来源url?

xeszero 发表于 2011-11-20 09:02:56

晕,发个贴,结果老是什么不良信息,帖子改成不伦不类才能发,晕死

303718 发表于 2011-11-20 15:06:02

这种要看具体的页面的情况才好判断组合

xeszero 发表于 2011-11-25 12:46:00

303718 发表于 2011-11-20 15:06 static/image/common/back.gif
这种要看具体的页面的情况才好判断组合

具体页面很简单啊,比如源页地址是h t t p://8.html
8.html的内容是x .我想产生 新的链接:h t t p://8/x.html怎么办?
好像没办法。其实要解决很简单,就是火车头采集器在采集网址入库的时候,把来源地址也同时入库就行了。比如入库内容是:
原地址:h t t p://8.html
内容:x
我只要把数据库导成excel或者其他文本什么的,很轻松就能产生h t t p://8/x.html 的链接。

问题是火车头采集网址的入库没有记录来源地址。

sylvia 发表于 2011-11-29 16:44:11

先采"h t t p://8.html"   这个如果是一级网址,就导出这批级网址,然后采集一级网址中的内容 “x”,之后自己手动在excel 运用“分列”、 “合并”等方式合成你想要的网址形式。最后将你合并好的网址导入火车头就可以了。

xeszero 发表于 2011-12-1 12:59:13

sylvia 发表于 2011-11-29 16:44 static/image/common/back.gif
先采"h t t p://8.html"   这个如果是一级网址,就导出这批级网址,然后采集一级网址中的内容 “x”,之后自 ...

火车头在采集大量网址的时候,会出现个别网址没有生成二级地址的情况,导致第二次生成的地址与第一次地址并不是按顺序对应的。

303718 发表于 2011-12-1 19:26:37

把采集线程调整成1试试

四川开来 发表于 2011-12-2 16:17:45

还是不明白是什么情况……
如果是内容页地址,可以通过手动连接替换来实现
否则的话,用插件来实现!
页: [1]
查看完整版本: 采集器如何才能保存来源url的信息,有一些新链接是需要老链接的参数的