kingnib 发表于 2010-5-8 09:25:40

网址采集连接地址中间部份重复要怎么去掉

本帖最后由 kingnib 于 2010-5-8 11:02 编辑

采集页面的连接地址源代码是<a href='/bbs/actions/archive/post/8437871_1.html?tpg=1' class="noline">[参数]</a>这种形式
采集得到的地址却是:

可以看到,/bbs//bbs/内容重复,这应该如何解决

http://www......cn/bbs/ 这部门是火车头默认的,不知道可不可以修改的成http://www.......cn/

论坛搜索原来已有相关问题,尚未得到解决,见论坛帖子:http://bbs.locoy.com/spider-47608-1-1.html
   
火车头采集的时候,前面一段网址是跟据那来的,要怎么改,
http://bbs.locoy.com/images/default/attachimg.gif http://bbs.locoy.com/attachments/month_1001/100129095182a1ab460a2fb70a.jpg

我把 /techdoc/beginner/ 这段重复的去掉一个,要不去掉前面的,要不去掉面后的不知道要怎么弄



afanfan2007 发表于 2010-5-8 09:46:03

使用自定义获取网址连接啊,<a href='/bbs/[参数]' class="noline">(*)</a>

kingnib 发表于 2010-5-8 10:03:12

本帖最后由 kingnib 于 2010-5-8 10:26 编辑

回复 2# afanfan2007

老大,还是不好用啊,按照你说得设置了


得到依然是:


还是……/bbs//bbs/

如果设置成禁用系统自动识别,会采集不到网址,半忙看看我是否设置错误?

afanfan2007 发表于 2010-5-8 10:45:06

加我QQ 我帮你看看 496891421

kingnib 发表于 2010-5-8 11:01:39

本帖最后由 kingnib 于 2010-5-8 11:20 编辑

问题已经解决,感谢狂风大大热心帮助,自己还要努力学习
页: [1]
查看完整版本: 网址采集连接地址中间部份重复要怎么去掉