采集器如何才能保存来源url的信息,有一些新链接是需要老链接的参数的
比如说:从h t t p:/ /calssid =8 这个网页中可以得到articleid=3这连个参数如何组合成新的链接 :h t t p: / /8/articleid=3 ?
这个网页源码中是没有包含原始链接的。
如果采集器在采集链接的时候除了新链接入库外,还将来源链接同时入库,问题就解决了。先随便生成一个h t t p:///x/articleid=3 ,然后将数据库导出,把x替换成相对应的来源来源链接中的classid就行了。
采集器如何能保存来源url? 晕,发个贴,结果老是什么不良信息,帖子改成不伦不类才能发,晕死
这种要看具体的页面的情况才好判断组合 303718 发表于 2011-11-20 15:06 static/image/common/back.gif
这种要看具体的页面的情况才好判断组合
具体页面很简单啊,比如源页地址是h t t p://8.html
8.html的内容是x .我想产生 新的链接:h t t p://8/x.html怎么办?
好像没办法。其实要解决很简单,就是火车头采集器在采集网址入库的时候,把来源地址也同时入库就行了。比如入库内容是:
原地址:h t t p://8.html
内容:x
我只要把数据库导成excel或者其他文本什么的,很轻松就能产生h t t p://8/x.html 的链接。
问题是火车头采集网址的入库没有记录来源地址。
先采"h t t p://8.html" 这个如果是一级网址,就导出这批级网址,然后采集一级网址中的内容 “x”,之后自己手动在excel 运用“分列”、 “合并”等方式合成你想要的网址形式。最后将你合并好的网址导入火车头就可以了。 sylvia 发表于 2011-11-29 16:44 static/image/common/back.gif
先采"h t t p://8.html" 这个如果是一级网址,就导出这批级网址,然后采集一级网址中的内容 “x”,之后自 ...
火车头在采集大量网址的时候,会出现个别网址没有生成二级地址的情况,导致第二次生成的地址与第一次地址并不是按顺序对应的。 把采集线程调整成1试试 还是不明白是什么情况……
如果是内容页地址,可以通过手动连接替换来实现
否则的话,用插件来实现!
页:
[1]