火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2934|回复: 1

火车头采集url地址是不是应该加个替换的功能。

[复制链接]
发表于 2013-7-24 10:41:59 | 显示全部楼层 |阅读模式
最近遇到一个网站 列表页的采集形式是news\xxx\xxx_1.shtml URL是反斜杠"\"这种类型的 如果用从页面自动分析获取到地址的方式获取的url是不正确的为:http://xx.com/newsxxxxxx_1.shtml 反斜杠被过滤了  于是用手动填写规则获取到的网址为http://xx.com/news\xxx\xxx_1.shtml能解析 也能采集 但是问题又来了。  获取内容分页的时候用自动获取 又会自动过滤掉反斜杠导致url不正确,而如果用手动填写分页地址由于他的分页地址为<a href="123.html">这种没有前边的url前缀而且内容目录又是不规则的没办法补全。如果采集网址处加一个替换的功能可以把\替换成/所有问题就都解决了。。。

我用火车头没多长时间翻了半天没发现火车头有这样的功能如果火车头早就有这功能希望各位大大能告诉下。。或者告诉下这个内容分页要怎么搞定 看了火车头所有的功能都没想到解决办法。
发表于 2014-3-26 10:36:41 | 显示全部楼层
试试。。。。。222222222222
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 22:25

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表