请问高手怎么采集列表页的内容.
比如:我只采集这些内容,页面内页的内容我不采集
这样的内容,我怎么才能采集到
时间:
类型:
大小:
等这些内容
列表地址是:http://findgames.wanwan.131.com/GetGameByCategory.aspx?id=1&page=2
页面截图
下面是HTML代码.<table class="game_list" border="0" cellspacing="0" cellpadding="0" height="100%">
<tr>
<td colspan="2" border="0" height="24" >
<span class="virturl_kill"></span>
<span class="virturl_kill"></span>
<h2 class="font_red"> <font class='font_red'>红色警戒2:尤里的..</font></h2>
</td>
</tr>
<tr>
<td border="0" width="100" align="center" valign="middle" class="img">
<a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyMoreInfo" href="javascript:OpenNewPage('红色警戒2:尤里的复仇', 'http://mini.131.com/games/yurlsrevenge/')"><img id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_iLogo" src="http://file.wanwan.131.com/Web/2009/03/13/2009031314592676.jpg" style="border-width:1px;border-style:solid;height:144px;width:100px;" /></a>
<span class='hover_bg_img'><img src='/Images/HotSmall.gif' /></span>
</td>
<td border="0" height="100%" valign="middle">
<table cellspacing="0" cellpadding="0" border="0" height="140">
<tr><td> 时 间:2009-3-13<td></tr>
<tr><td> 类 型:单机游戏<td></tr>
<tr><td> 语 言:中文</td></tr>
<tr><td> 大 小:292.27 M<td></tr>
<tr><td style="color:Red"> 在 玩:199542 人</td></tr>
<tr><td> <font id='point_2556'>花 费:1 玩点</font></td></tr>
<tr><td>
<font id="down_2556" class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyDown" href="javascript:AddDownloadTask('2556', 'DTL://红色警戒2:尤里的复仇.rar&306467350&882A1CB715DDD2C2437BAE70E9364C63=2556')">下载</a></font><font style="display:none;" id="run_2556" class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyRun" href="javascript:RunGame(2556)" style="color:Red;">运行</a></font><font class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyDetail" href="javascript:OpenNewPage('红色警戒2:尤里的复仇', 'http://mini.131.com/games/yurlsrevenge/')">详情</a></font><font class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hySpecial" href="http://pc.131.com/games/yurlsrevenge/" target="_blank">专区</a></font>
</td></tr>
</table>
</td>
</tr>
</table> 自定义获取链接的方式 我用的就是自定义获取连接,可是不行.... 这样的可以直接采集的到,先建标签如时间,然后截取代码<tr><td> 时 间:这样逐个采集即可获得到。 如果把网址作为列表页,把网址深度设为0,采集页面地址就为列表页地址,采集后结果为添加新纪录如下:
【时间】:2008-8-12
【类型】:单机游戏
【语言】:英文
【大小】:38.36 M
【在玩】:1113146人
【花费】:0 玩点
███████████████第1条记录████████████████
【时间】:2009-6-7
【类型】:单机游戏
【语言】:英文
【大小】:29.76 M
【在玩】:841272人
【花费】:0 玩点
███████████████第2条记录████████████████
【时间】:2008-9-3
【类型】:单机游戏
【语言】:英文
【大小】:10.7 M
【在玩】:607065人
【花费】:0 玩点
███████████████第3条记录████████████████
【时间】:2008-8-12
【类型】:单机游戏
【语言】:英文
【大小】:19.56 M
【在玩】:525517人
【花费】:0 玩点
。。。。。。。。。。
或者为用分隔符连接在上条记录后,结果如下:
【时间】:2008-8-12|||2009-6-7|||2008-9-3|||2008-8-12|||2008-11-6|||2008-10-29|||2008-8-13|||2008-8-12|||2009-5-8|||2009-3-26|||2008-11-7|||2009-6-3|||2008-8-12|||2009-8-11|||2009-3-6
【类型】:单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏
【语言】:英文|||英文|||英文|||英文|||英文|||中文|||中文|||英文|||中文|||英文|||中文|||英文|||英文|||中文简体|||英文
【大小】:38.36 M|||29.76 M|||10.7 M|||19.56 M|||492.67 M|||195.33 M|||637.32 M|||58.18 M|||1.18 G|||30.54 M|||145.02 M|||36.35 M|||9.52 M|||50.97 M|||89.91 M
【在玩】:1113146人|||841272人|||607065人|||525517人|||494075人|||489748人|||422805人|||373162人|||370476人|||354298人|||330729人|||278696人|||275662人|||275430人|||228914人
【花费】:0 玩点|||0 玩点|||0 玩点|||0 玩点|||2 玩点|||1 玩点|||3 玩点|||0 玩点|||6 玩点|||0 玩点|||1 玩点|||0 玩点|||0 玩点|||0 玩点|||0 玩点 学习一下 入库的时候这些内容就直接分开了么? 恩,是的。入库的时候自动分开
页:
[1]