求助!2008采集内容结束字符串设置问题
采集一个站的图片网页!当页面没分页时图片结尾后的字符串为*c.jpg" /> <br /><TABLE border=0 class="this_page_url" align=center><TR><TD><div class="button_001"当页面有分页时,图片结尾后的字符串为*a.gif" /> <br />
<BR> <BR><table align=center><tr><tdclass=page_links><CENTER><B><FONT COLOR=red>本文章更多内容</FONT></B>:<FONT - COLOR=red><B>1</B></FONT> - <A - HREF="/html/86/3277$2.html">2</a> - <A - HREF="/html/86/3277$3.html">3</a> - <A - HREF="/html/86/3277$4.html">4</a> - <A - HREF="/html/86/3277$5.html">5</a> - <A - HREF="/html/86/3277$6.html">6</a> - <A - HREF="/html/86/3277$7.html">7</a> - <A - HREF="/html/86/3277$2.html">下一页>></a></CENTER></td> </tr></TABLE><br /><TABLE border=0 class="this_page_url" align=center><TR><TD><div class="button_001"
我这样操作的采集内容的,把<table align=center><tr>设为采集内容结束字符串时,能采集到满意的有分页的图片页面,但
不能采集到没有分页的图片页面;当把<TABLE border=0 class="this_page_url" align=center><TR>设为采集内容结束字符串时,
有分页和没分页的图片页面都能采集到,但有分页的图片页面不能排除掉中间的一大堆分页设置码,如上面红色部分!!!!
求助各位大大!!!!我该如何设置图片页面内容结尾字符串才能同时采集有分页或无分页图片页面,并去除红色的分页码?
或者教下我怎么排除红色的分页码?????ali13ls ali13ls ali13ls ali16ls ali16ls ali16ls
难道这个会很难么???没大大解决下!!! 貌似自己研究了个笨办法出来,都以<TABLE border=0 class="this_page_url" align=center><TR>为结尾字符串,然后建两个任务,一个任务执行必须包含<table align=center><tr><tdclass=page_links>字符串,才采集,也就是采集有分页的图片页;另一个任务执行不包含<table align=center><tr><tdclass=page_links>字符串,才采集,也就是采集没有分页的图片页!!!:ali10ls :ali10ls 就是对要采集的图片页面进行两次扫描。
ali17ls ali17ls ali17ls 哪位大大教个更好的方法哈!!!!!!!!!!!!
回复 1楼 的帖子
排除分页也就是将红色部分设置为分页区域,那么程序会自动排除的.
页:
[1]