cnprince 发表于 2015-10-11 20:16:25

求高手指点,弄了好几个小时都没弄好内容网址的采集

目标网站是一个UBB论坛程序
设置采集内容页网址的时候总是重复
此论坛程序的特点,在列表页显示出来的每一个话题的内容页网址都有第一个帖子的网址和最后一个帖子的网址
当此话题只有一个页面而没有分页的时候,这两个网址实际上指向的就只是一个内容页而已,所以采集内容是重复的,但网址又不重复
想的头都大了,也没找到解决的办法,手动设置规则设置了无数次,每一次成功的
论坛上找教程也找不到,很多教程的连接都已经是错误的了,也没人更正

   数字不同,但主题是一样的,指向的都是同一个内容页

源代码是这样的:
<a href="/forums/ubbthreads.php/topics/11154625/Stupid_funniest#Post11154625">Stupid funniest</a>
<a href="/forums/ubbthreads.php/topics/11156776/Stupid_funniest#Post11156776" rel="nofollow"><span class="date">Today at</span> <span class="time">10:15 PM</span></a>
这两个网址,一个是论坛主题的一楼,一个是末楼,如果没有分页,就都是指向的同一个网址


<a href="/forums/ubbthreads.php/topics/11086814/Lake_Conroe#Post11086814">Lake Conroe</a>
<a href="/forums/ubbthreads.php/topics/11086814/1/Lake_Conroe">1</a>
<a href="/forums/ubbthreads.php/topics/11086814/2/Lake_Conroe">2</a>
<a href="/forums/ubbthreads.php/topics/11086814/3/Lake_Conroe">3</a>
<a href="/forums/ubbthreads.php/topics/11086814/all/Lake_Conroe">all</a>
<a href="/forums/ubbthreads.php/topics/11155325/Lake_Conroe#Post11155325" rel="nofollow"><span class="date">Yesterday at</span> <span class="time">10:48 PM</span></a>
这个是有分页的

如果火车头采集有采集区域也有循环匹配的功能,那就不存在这个问题了,可以在设置列表采集区域的时候通过循环匹配的方式把后面重复的那个排除掉,但没看到火车头有网址采集区域循环匹配的功能,只有文章内容循环匹配的功能,看论坛里有没人搞的定UBB论坛程序的采集的,请指点一二

cnprince 发表于 2015-10-11 20:20:18

火车头版本 V9

303718 发表于 2015-10-12 10:53:36

用自定义连接<a href="/forums/ubbthreads.php/topics/[参数]/这样

cnprince 发表于 2015-10-12 11:10:49

303718 发表于 2015-10-12 10:53
用自定义连接



这么设置,网址采集测试,显示采集结果是0,采集不到内容页网址{:soso_e136:}

webbase8 发表于 2015-10-12 16:09:51


用自定义连接<a href="/forums/ubbthreads.php/topics/[参数]/这样 下面的拼接也要点上那个“【参数N】”

cnprince 发表于 2015-10-12 16:57:13

webbase8 发表于 2015-10-12 16:09
用自定义连接

谢谢。我试了下,这样还是解决不了主题重复的问题,就是要解决这个问题,不然90%以上的主题都会重复内容。

cnprince 发表于 2015-10-12 17:01:29

<a href="/forums/ubbthreads.php/topics/11154625/Stupid_funniest#Post11154625">Stupid funniest</a>
<a href="/forums/ubbthreads.php/topics/11156776/Stupid_funniest#Post11156776" rel="nofollow"><span class="date">Today at</span> <span class="time">10:15 PM</span></a>

这段代码中的两个网址,需要采集的时候屏蔽掉后面的那个网址,后面的这个网址会跟前面的或者其他分页的内容是重复的,在论坛中,第一个网址是以楼主的贴为目标,后面的网址是以此主题的最后回复贴为目标

cnprince 发表于 2015-10-12 18:28:59

已在QQ群友指点下解决

terence 发表于 2015-10-13 01:18:54

百折网
页: [1]
查看完整版本: 求高手指点,弄了好几个小时都没弄好内容网址的采集