采集器如何才能保存来源url的信息,有一些新链接是需要老链接的参数的

xeszero 发表于 2011-11-20 09:01:48

比如说：从h t t p:/ /calssid =8 这个网页中可以得到articleid=3这连个参数
如何组合成新的链接：h t t p: / /8/articleid=3 ？
这个网页源码中是没有包含原始链接的。

如果采集器在采集链接的时候除了新链接入库外，还将来源链接同时入库，问题就解决了。先随便生成一个h t t p:///x/articleid=3 ,然后将数据库导出，把x替换成相对应的来源来源链接中的classid就行了。

采集器如何能保存来源url?

xeszero 发表于 2011-11-20 09:02:56

晕，发个贴，结果老是什么不良信息，帖子改成不伦不类才能发，晕死

303718 发表于 2011-11-20 15:06:02

这种要看具体的页面的情况才好判断组合

xeszero 发表于 2011-11-25 12:46:00

303718 发表于 2011-11-20 15:06 static/image/common/back.gif
这种要看具体的页面的情况才好判断组合

具体页面很简单啊，比如源页地址是h t t p://8.html
8.html的内容是x .我想产生新的链接：h t t p://8/x.html怎么办？
好像没办法。其实要解决很简单，就是火车头采集器在采集网址入库的时候，把来源地址也同时入库就行了。比如入库内容是：
原地址：h t t p://8.html
内容：x
我只要把数据库导成excel或者其他文本什么的，很轻松就能产生h t t p://8/x.html 的链接。

问题是火车头采集网址的入库没有记录来源地址。

sylvia 发表于 2011-11-29 16:44:11

先采"h t t p://8.html" 这个如果是一级网址，就导出这批级网址，然后采集一级网址中的内容 “x”，之后自己手动在excel 运用“分列”、 “合并”等方式合成你想要的网址形式。最后将你合并好的网址导入火车头就可以了。

xeszero 发表于 2011-12-1 12:59:13

sylvia 发表于 2011-11-29 16:44 static/image/common/back.gif
先采"h t t p://8.html" 这个如果是一级网址，就导出这批级网址，然后采集一级网址中的内容 “x”，之后自 ...

火车头在采集大量网址的时候，会出现个别网址没有生成二级地址的情况，导致第二次生成的地址与第一次地址并不是按顺序对应的。

303718 发表于 2011-12-1 19:26:37

把采集线程调整成1试试

四川开来 发表于 2011-12-2 16:17:45

还是不明白是什么情况……
如果是内容页地址，可以通过手动连接替换来实现
否则的话，用插件来实现！

页: [1]

火车采集器软件交流官方论坛's Archiver

采集器如何才能保存来源url的信息,有一些新链接是需要老链接的参数的