网址采集连接地址中间部份重复要怎么去掉
本帖最后由 kingnib 于 2010-5-8 11:02 编辑采集页面的连接地址源代码是<a href='/bbs/actions/archive/post/8437871_1.html?tpg=1' class="noline">[参数]</a>这种形式
采集得到的地址却是:
可以看到,/bbs//bbs/内容重复,这应该如何解决
http://www......cn/bbs/ 这部门是火车头默认的,不知道可不可以修改的成http://www.......cn/
论坛搜索原来已有相关问题,尚未得到解决,见论坛帖子:http://bbs.locoy.com/spider-47608-1-1.html
火车头采集的时候,前面一段网址是跟据那来的,要怎么改,
http://bbs.locoy.com/images/default/attachimg.gif http://bbs.locoy.com/attachments/month_1001/100129095182a1ab460a2fb70a.jpg
我把 /techdoc/beginner/ 这段重复的去掉一个,要不去掉前面的,要不去掉面后的不知道要怎么弄
使用自定义获取网址连接啊,<a href='/bbs/[参数]' class="noline">(*)</a> 本帖最后由 kingnib 于 2010-5-8 10:26 编辑
回复 2# afanfan2007
老大,还是不好用啊,按照你说得设置了
得到依然是:
还是……/bbs//bbs/
如果设置成禁用系统自动识别,会采集不到网址,半忙看看我是否设置错误? 加我QQ 我帮你看看 496891421 本帖最后由 kingnib 于 2010-5-8 11:20 编辑
问题已经解决,感谢狂风大大热心帮助,自己还要努力学习
页:
[1]