火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3222|回复: 7

采集器如何才能保存来源url的信息,有一些新链接是需要老链接的参数的

[复制链接]
发表于 2011-11-20 09:01:48 | 显示全部楼层 |阅读模式
比如说:从
  1. h t t p:/ /calssid =8
复制代码
这个网页中可以得到
  1. articleid=3
复制代码
这连个参数
如何组合成新的链接 :
  1. h t t p: / /8/articleid=3
复制代码

这个网页源码中是没有包含原始链接的。

如果采集器在采集链接的时候除了新链接入库外,还将来源链接同时入库,问题就解决了。先随便生成一个
  1. h t t p:///x/articleid=3
复制代码
,然后将数据库导出,把x替换成相对应的来源来源链接中的classid就行了。


采集器如何能保存来源url?
 楼主| 发表于 2011-11-20 09:02:56 | 显示全部楼层
晕,发个贴,结果老是什么不良信息,帖子改成不伦不类才能发,晕死
发表于 2011-11-20 15:06:02 | 显示全部楼层
这种要看具体的页面的情况才好判断组合
 楼主| 发表于 2011-11-25 12:46:00 | 显示全部楼层
303718 发表于 2011-11-20 15:06
这种要看具体的页面的情况才好判断组合

具体页面很简单啊,比如源页地址是h t t p://8.html
8.html的内容是x .我想产生 新的链接:h t t p://8/x.html  怎么办?
好像没办法。其实要解决很简单,就是火车头采集器在采集网址入库的时候,把来源地址也同时入库就行了。比如入库内容是:
原地址:h t t p://8.html
内容:x
我只要把数据库导成excel或者其他文本什么的,很轻松就能产生h t t p://8/x.html 的链接。

问题是火车头采集网址的入库没有记录来源地址。
发表于 2011-11-29 16:44:11 | 显示全部楼层
先采"h t t p://8.html"   这个如果是一级网址,就导出这批级网址,然后采集一级网址中的内容 “x”,之后自己手动在excel 运用“分列”、 “合并”等方式合成你想要的网址形式。最后将你合并好的网址导入火车头就可以了。
 楼主| 发表于 2011-12-1 12:59:13 | 显示全部楼层
sylvia 发表于 2011-11-29 16:44
先采"h t t p://8.html"   这个如果是一级网址,就导出这批级网址,然后采集一级网址中的内容 “x”,之后自 ...

火车头在采集大量网址的时候,会出现个别网址没有生成二级地址的情况,导致第二次生成的地址与第一次地址并不是按顺序对应的。
发表于 2011-12-1 19:26:37 | 显示全部楼层
把采集线程调整成1试试
发表于 2011-12-2 16:17:45 | 显示全部楼层
还是不明白是什么情况……
如果是内容页地址,可以通过手动连接替换来实现
否则的话,用插件来实现!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-10-7 00:12

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表