whoamixx 发表于 2013-7-24 10:39:19

火车头采集url地址是不是应该加个替换的功能。

最近遇到一个采集网站 列表页的采集形式是news\xxx\xxx_1.shtml URL是反斜杠"\"这种类型的 如果用从页面自动分析获取到地址的方式获取的url是不正确的为:http://xx.com/newsxxxxxx_1.shtml 反斜杠被过滤了于是用手动填写规则获取到的网址为http://xx.com/news\xxx\xxx_1.shtml能解析 也能采集 但是问题又来了。获取内容分页的时候用自动获取 又会自动过滤掉反斜杠导致url不正确,而如果用手动填写分页地址由于他的分页地址为<a href="123.html">这种没有前边的url前缀而且内容目录又是不规则的没办法补全。如果采集网址处加一个替换的功能可以把\替换成/所有问题就都解决了。。。

我用火车头没多长时间翻了半天没发现火车头有这样的功能如果火车头早就有这功能希望各位大大能告诉下。。或者告诉下这个内容分页要怎么搞定 看了火车头所有的功能都没想到解决办法。

whoamixx 发表于 2013-7-24 10:56:48

或者火车头有没有一个变量 可以代表当前采集url内容页的相对地址? 和自动获取分页url似的 自动补全前面当前页面的url
页: [1]
查看完整版本: 火车头采集url地址是不是应该加个替换的功能。