zz789 发表于 2012-5-17 14:48:17

求助。。。采集规则求助,大神来帮忙看看?

本帖最后由 zz789 于 2012-5-18 10:18 编辑

<td valign=top>第1张</td></tr></table></li><li>
.......
<a href='4586_9.html' ...........
<td valign=top>第9张</td></tr></table></li><li>
<a href='4586_10.html' target='_blank'><img src='../up/allimg/512/041Q2120249/12041Q20249-9-lp.jpg' border='0' width='200' heigth='100'></a><table align=center width=85% border=0 cellspacing=0 cellpadding=0><tr>
<td valign=top>第10张</td></tr></table></li></ul></div></div></div></div></td></tr>
想获取数字 10 这里应该怎么写呢?我新手菜鸟不会写啊。
大神们别光看啊 帮忙解决探讨下。。

zml123 发表于 2012-5-18 09:11:11

只获取数字10,还是1,2,3...都要呢?

zml123 发表于 2012-5-18 09:14:43

只获取10的话,开始字符串:第9张</td></tr></table></li><li>
<td valign=top>第 ,结束字符串:张
1,2,3...都要的话,就是开始字符串:<td valign=top>第,结束字符串:张</td>
然后勾选循环匹配

zz789 发表于 2012-5-18 10:13:28

zml123 发表于 2012-5-18 09:14 static/image/common/back.gif
只获取10的话,开始字符串:第9张
第 ,结束字符串:张
1,2,3...都要的话,就是开始字符串:第,结束字 ...

谢谢啊。不过我表达错了。下面的9张,10张不是固定的。也有可能是8,9.

第9张</td></tr></table></li><li>
<a href='4586_10.html' target='_blank'><img src='../up/allimg/512/041Q2120249/12041Q20249-9-lp.jpg' border='0' width='200' heigth='100'></a><table align=center width=85% border=0 cellspacing=0 cellpadding=0><tr><td valign=top>第10张</td></tr></table></li></ul></div></div></div></div></td></tr>

303718 发表于 2012-5-18 16:46:32

这个应该得用插件处理了

negatlov 发表于 2012-5-18 20:31:52

看楼主的意思,如果能有个倒序截取的功能就可以了。拿 “张</td></tr></table></li></ul></div></div></div></div></td></tr>”做起始字符串,“<td valign=top>第”做结束字符串。

不过上面纯设想。貌似火车头还不支持吧。

negatlov 发表于 2012-5-18 22:18:31

楼主可否给出该实例的所在网址,我用于检验下自己的思路.

negatlov 发表于 2012-5-18 23:26:31

没有测试网址,博文只写了一小半。
http://blog.csdn.net/datacollection/article/details/7581753
页: [1]
查看完整版本: 求助。。。采集规则求助,大神来帮忙看看?