nameajie 发表于 2014-9-16 15:08:49

求助 关于分页采集问题,碰到比较牛的防采集方法

设置分页规则,采用 写好分页采集区域 用自动识别来操作,因为手动填写分页采集规则的话,变数太多。


如果他内容页采用分页形式是以下两种的话 ,火车可以正常识别。并且自动补全地址,可以正常采集

<div Id= 'ArtCutPage' ><span>共<font class="red">2</font>页,当前第<font class="red">1</font>页</span><span clAss="ThisPart">1</span><A hReF='1151921303194288_2.htm'>2</a></div>

。<dIV class='TxtPart'><span>共<font class="red">4</font>页,当前第<font class="red">1</font>页</span><spAN Class='NowPage' >1</sPan><A iD="" hReF='128401592547540_2.htm'>2</a><A iD="" hReF='128401592547540_3.htm'>3</a><A iD="" hReF='128401592547540_4.htm'>4</a></div>



如果他内容页采用分页形式是以下两种的话 ,火车就识别不了。并且不能自动补全地址,就不能采集到分页。

<div id =TxtPart ><span>共<font class="red">3</font>页,当前第<font class="red">1</font>页</span><sPAn iD=ThisPart >1</sPAn> <a href =128501233751181_2.htm>2</a><a href =128501233751181_3.htm>3</a></div>

<dIV class='TxtPart'><span>共<font class="red">4</font>页,当前第<font class="red">1</font>页</span><span iD=ThisPart>
1</span><A hrEf = "128504333632692_2.htm">2</a><A hrEf = "128504333632692_3.htm">3</a><A hrEf = "128504333632692_4.htm">4</a></div>

我并不知道火车的自动识别是什么原理,想必是 <A hReF='1151921303194288_2.htm'>2</a> 大小写可以忽略,以<A hReF='这样两边有单引号的'>2</a> 可以识别,但是 以<A hrEf = "双引号"></a>的 <A hrEf = 无引号></a>的就不能识别了。

请教各位,有什么办法可以自定义一下或者什么别的方法可以搞定吗

303718 发表于 2014-9-16 16:00:20

复杂多变的只能用插件解决

nameajie 发表于 2014-9-16 16:01:53

感谢提供思路,这样的话,我去看看,找找相关的插件 自己修改看看。
可否指导下 哪里有相关的插件?

kuhabe 发表于 2014-9-19 09:39:44

用手动链接格式试试

kuhabe 发表于 2014-9-19 09:41:03

用手动链接格式试试,,
页: [1]
查看完整版本: 求助 关于分页采集问题,碰到比较牛的防采集方法