火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4004|回复: 8

求高手指点,弄了好几个小时都没弄好内容网址的采集

[复制链接]
发表于 2015-10-11 20:16:25 | 显示全部楼层 |阅读模式
目标网站是一个UBB论坛程序
设置采集内容页网址的时候总是重复
此论坛程序的特点,在列表页显示出来的每一个话题的内容页网址都有第一个帖子的网址和最后一个帖子的网址
当此话题只有一个页面而没有分页的时候,这两个网址实际上指向的就只是一个内容页而已,所以采集内容是重复的,但网址又不重复
想的头都大了,也没找到解决的办法,手动设置规则设置了无数次,每一次成功的
论坛上找教程也找不到,很多教程的连接都已经是错误的了,也没人更正

   数字不同,但主题是一样的,指向的都是同一个内容页

源代码是这样的:
<a href="/forums/ubbthreads.php/topics/11154625/Stupid_funniest#Post11154625">Stupid funniest</a>
<a href="/forums/ubbthreads.php/topics/11156776/Stupid_funniest#Post11156776" rel="nofollow"><span class="date">Today at</span> <span class="time">10:15 PM</span></a>
这两个网址,一个是论坛主题的一楼,一个是末楼,如果没有分页,就都是指向的同一个网址


<a href="/forums/ubbthreads.php/topics/11086814/Lake_Conroe#Post11086814">Lake Conroe</a>
<a href="/forums/ubbthreads.php/topics/11086814/1/Lake_Conroe">1</a>
<a href="/forums/ubbthreads.php/topics/11086814/2/Lake_Conroe">2</a>
<a href="/forums/ubbthreads.php/topics/11086814/3/Lake_Conroe">3</a>
<a href="/forums/ubbthreads.php/topics/11086814/all/Lake_Conroe">all</a>
<a href="/forums/ubbthreads.php/topics/11155325/Lake_Conroe#Post11155325" rel="nofollow"><span class="date">Yesterday at</span> <span class="time">10:48 PM</span></a>
这个是有分页的

如果火车头采集有采集区域也有循环匹配的功能,那就不存在这个问题了,可以在设置列表采集区域的时候通过循环匹配的方式把后面重复的那个排除掉,但没看到火车头有网址采集区域循环匹配的功能,只有文章内容循环匹配的功能,看论坛里有没人搞的定UBB论坛程序的采集的,请指点一二

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2015-10-11 20:20:18 | 显示全部楼层
火车头版本 V9
发表于 2015-10-12 10:53:36 | 显示全部楼层
用自定义连接<a href="/forums/ubbthreads.php/topics/[参数]/这样
 楼主| 发表于 2015-10-12 11:10:49 | 显示全部楼层



这么设置,网址采集测试,显示采集结果是0,采集不到内容页网址{:soso_e136:}

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2015-10-12 16:09:51 | 显示全部楼层

用自定义连接<a href="/forums/ubbthreads.php/topics/[参数]/这样 下面的拼接也要点上那个“【参数N】”
 楼主| 发表于 2015-10-12 16:57:13 | 显示全部楼层

谢谢。我试了下,这样还是解决不了主题重复的问题,就是要解决这个问题,不然90%以上的主题都会重复内容。
 楼主| 发表于 2015-10-12 17:01:29 | 显示全部楼层
<a href="/forums/ubbthreads.php/topics/11154625/Stupid_funniest#Post11154625">Stupid funniest</a>
<a href="/forums/ubbthreads.php/topics/11156776/Stupid_funniest#Post11156776" rel="nofollow"><span class="date">Today at</span> <span class="time">10:15 PM</span></a>

这段代码中的两个网址,需要采集的时候屏蔽掉后面的那个网址,后面的这个网址会跟前面的或者其他分页的内容是重复的,在论坛中,第一个网址是以楼主的贴为目标,后面的网址是以此主题的最后回复贴为目标
 楼主| 发表于 2015-10-12 18:28:59 | 显示全部楼层
已在QQ群友指点下解决
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-21 13:26

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表