火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2288|回复: 4

求助 关于分页采集问题,碰到比较牛的防采集方法

[复制链接]
发表于 2014-9-16 15:08:49 | 显示全部楼层 |阅读模式
设置分页规则,采用 写好分页采集区域 用自动识别来操作,因为手动填写分页采集规则的话,变数太多。


如果他内容页采用分页形式是以下两种的话 ,火车可以正常识别。并且自动补全地址,可以正常采集

<div Id= 'ArtCutPage' ><span>共<font class="red">2</font>页,当前第<font class="red">1</font>页</span><span clAss="ThisPart">1</span><A hReF='1151921303194288_2.htm'>2</a></div>

。<dIV class='TxtPart'><span>共<font class="red">4</font>页,当前第<font class="red">1</font>页</span><spAN Class='NowPage' >1</sPan><A iD="" hReF='128401592547540_2.htm'>2</a><A iD="" hReF='128401592547540_3.htm'>3</a><A iD="" hReF='128401592547540_4.htm'>4</a></div>



如果他内容页采用分页形式是以下两种的话 ,火车就识别不了。并且不能自动补全地址,就不能采集到分页。

<div id =TxtPart ><span>共<font class="red">3</font>页,当前第<font class="red">1</font>页</span><sPAn iD=ThisPart >1</sPAn> <a href =128501233751181_2.htm>2</a><a href =128501233751181_3.htm>3</a></div>

<dIV class='TxtPart'><span>共<font class="red">4</font>页,当前第<font class="red">1</font>页</span><span iD=ThisPart>
1</span><A hrEf = "128504333632692_2.htm">2</a><A hrEf = "128504333632692_3.htm">3</a><A hrEf = "128504333632692_4.htm">4</a></div>

我并不知道火车的自动识别是什么原理,想必是 <A hReF='1151921303194288_2.htm'>2</a> 大小写可以忽略,以<A hReF='这样两边有单引号的'>2</a> 可以识别,但是 以<A hrEf = "双引号"></a>的 <A hrEf = 无引号></a>的就不能识别了。

请教各位,有什么办法可以自定义一下或者什么别的方法可以搞定吗
发表于 2014-9-16 16:00:20 | 显示全部楼层
复杂多变的只能用插件解决
 楼主| 发表于 2014-9-16 16:01:53 | 显示全部楼层
感谢提供思路,这样的话,我去看看,找找相关的插件 自己修改看看。
可否指导下 哪里有相关的插件?
发表于 2014-9-19 09:39:44 | 显示全部楼层
用手动链接格式试试
发表于 2014-9-19 09:41:03 | 显示全部楼层
用手动链接格式试试,,
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 07:57

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表