求助关于分页采集问题，碰到比较牛的防采集方法

nameajie · 发表于 2014-9-16 15:08:49

设置分页规则，采用写好分页采集区域用自动识别来操作，因为手动填写分页采集规则的话，变数太多。

如果他内容页采用分页形式是以下两种的话，火车可以正常识别。并且自动补全地址，可以正常采集

<div Id= 'ArtCutPage' ><span>共<font class="red">2</font>页，当前第<font class="red">1</font>页</span><span clAss="ThisPart">1</span><A hReF='1151921303194288_2.htm'>2</a></div>

。<dIV class='TxtPart'><span>共<font class="red">4</font>页，当前第<font class="red">1</font>页</span><spAN Class='NowPage' >1</sPan><A iD="" hReF='128401592547540_2.htm'>2</a><A iD="" hReF='128401592547540_3.htm'>3</a><A iD="" hReF='128401592547540_4.htm'>4</a></div>

如果他内容页采用分页形式是以下两种的话，火车就识别不了。并且不能自动补全地址，就不能采集到分页。

<div id =TxtPart ><span>共<font class="red">3</font>页，当前第<font class="red">1</font>页</span><sPAn iD=ThisPart >1</sPAn> <a href =128501233751181_2.htm>2</a><a href =128501233751181_3.htm>3</a></div>

<dIV class='TxtPart'><span>共<font class="red">4</font>页，当前第<font class="red">1</font>页</span><span iD=ThisPart>
1</span><A hrEf = "128504333632692_2.htm">2</a><A hrEf = "128504333632692_3.htm">3</a><A hrEf = "128504333632692_4.htm">4</a></div>

我并不知道火车的自动识别是什么原理，想必是 <A hReF='1151921303194288_2.htm'>2</a> 大小写可以忽略，以<A hReF='这样两边有单引号的'>2</a> 可以识别，但是以<A hrEf = "双引号"></a>的 <A hrEf = 无引号></a>的就不能识别了。

请教各位，有什么办法可以自定义一下或者什么别的方法可以搞定吗

303718 · 发表于 2014-9-16 16:00:20

复杂多变的只能用插件解决

nameajie · 发表于 2014-9-16 16:01:53

感谢提供思路，这样的话，我去看看，找找相关的插件自己修改看看。
可否指导下哪里有相关的插件？

kuhabe · 发表于 2014-9-19 09:39:44

用手动链接格式试试

kuhabe · 发表于 2014-9-19 09:41:03

用手动链接格式试试，，

帐号		自动登录	找回密码
密码			加入会员

求助 关于分页采集问题，碰到比较牛的防采集方法

求助关于分页采集问题，碰到比较牛的防采集方法