saldone 发表于 2010-5-27 11:19:43

请问高手怎么采集列表页的内容.

比如:

我只采集这些内容,页面内页的内容我不采集
这样的内容,我怎么才能采集到
时间:
类型:
大小:
等这些内容
列表地址是:http://findgames.wanwan.131.com/GetGameByCategory.aspx?id=1&page=2
页面截图

下面是HTML代码.<table class="game_list" border="0" cellspacing="0" cellpadding="0" height="100%">
    <tr>
      <td colspan="2" border="0" height="24" >
            <span class="virturl_kill"></span>
            <span class="virturl_kill"></span>
            <h2 class="font_red">&nbsp;&nbsp;&nbsp;<font class='font_red'>红色警戒2:尤里的..</font></h2>      
      </td>
    </tr>
    <tr>
      <td border="0" width="100" align="center" valign="middle" class="img">
            <a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyMoreInfo" href="javascript:OpenNewPage('红色警戒2:尤里的复仇', 'http://mini.131.com/games/yurlsrevenge/')"><img id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_iLogo" src="http://file.wanwan.131.com/Web/2009/03/13/2009031314592676.jpg" style="border-width:1px;border-style:solid;height:144px;width:100px;" /></a>
            
            <span class='hover_bg_img'><img src='/Images/HotSmall.gif' /></span>
      </td>
      <td border="0" height="100%" valign="middle">
            <table cellspacing="0" cellpadding="0" border="0" height="140">
                <tr><td> &nbsp;时 间:2009-3-13<td></tr>
                <tr><td> &nbsp;类 型:单机游戏<td></tr>
                <tr><td> &nbsp;语 言:中文</td></tr>
                <tr><td> &nbsp;大 小:292.27 M<td></tr>
                <tr><td style="color:Red"> &nbsp;在 玩:199542&nbsp;&nbsp;人</td></tr>
                <tr><td> &nbsp;<font id='point_2556'>花 费:1 &nbsp;玩点</font></td></tr>
                <tr><td>
                  <font id="down_2556" class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyDown" href="javascript:AddDownloadTask('2556', 'DTL://红色警戒2:尤里的复仇.rar&amp;306467350&amp;882A1CB715DDD2C2437BAE70E9364C63=2556')">下载</a></font><font style="display:none;" id="run_2556" class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyRun" href="javascript:RunGame(2556)" style="color:Red;">运行</a></font><font class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hyDetail" href="javascript:OpenNewPage('红色警戒2:尤里的复仇', 'http://mini.131.com/games/yurlsrevenge/')">详情</a></font><font class="list_button"><a id="GamePhotoList1_nrpSingleList_ctl00_SingleGame1_hySpecial" href="http://pc.131.com/games/yurlsrevenge/" target="_blank">专区</a></font>
                </td></tr>
            </table>
      </td>
    </tr>
</table>

zjyk1984 发表于 2010-5-27 13:00:01

自定义获取链接的方式

saldone 发表于 2010-5-27 13:40:01

我用的就是自定义获取连接,可是不行....

lxy2010 发表于 2010-5-27 16:27:30

这样的可以直接采集的到,先建标签如时间,然后截取代码<tr><td> &nbsp;时 间:这样逐个采集即可获得到。

lxy2010 发表于 2010-5-27 17:08:28

如果把网址作为列表页,把网址深度设为0,采集页面地址就为列表页地址,采集后结果为添加新纪录如下:
【时间】:2008-8-12
【类型】:单机游戏
【语言】:英文
【大小】:38.36 M
【在玩】:1113146人
【花费】:0 玩点
███████████████第1条记录████████████████
【时间】:2009-6-7
【类型】:单机游戏
【语言】:英文
【大小】:29.76 M
【在玩】:841272人
【花费】:0 玩点
███████████████第2条记录████████████████
【时间】:2008-9-3
【类型】:单机游戏
【语言】:英文
【大小】:10.7 M
【在玩】:607065人
【花费】:0 玩点
███████████████第3条记录████████████████
【时间】:2008-8-12
【类型】:单机游戏
【语言】:英文
【大小】:19.56 M
【在玩】:525517人
【花费】:0 玩点
。。。。。。。。。。
或者为用分隔符连接在上条记录后,结果如下:
【时间】:2008-8-12|||2009-6-7|||2008-9-3|||2008-8-12|||2008-11-6|||2008-10-29|||2008-8-13|||2008-8-12|||2009-5-8|||2009-3-26|||2008-11-7|||2009-6-3|||2008-8-12|||2009-8-11|||2009-3-6
【类型】:单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏|||单机游戏
【语言】:英文|||英文|||英文|||英文|||英文|||中文|||中文|||英文|||中文|||英文|||中文|||英文|||英文|||中文简体|||英文
【大小】:38.36 M|||29.76 M|||10.7 M|||19.56 M|||492.67 M|||195.33 M|||637.32 M|||58.18 M|||1.18 G|||30.54 M|||145.02 M|||36.35 M|||9.52 M|||50.97 M|||89.91 M
【在玩】:1113146人|||841272人|||607065人|||525517人|||494075人|||489748人|||422805人|||373162人|||370476人|||354298人|||330729人|||278696人|||275662人|||275430人|||228914人
【花费】:0 玩点|||0 玩点|||0 玩点|||0 玩点|||2 玩点|||1 玩点|||3 玩点|||0 玩点|||6 玩点|||0 玩点|||1 玩点|||0 玩点|||0 玩点|||0 玩点|||0 玩点

andywu 发表于 2010-5-27 17:16:03

学习一下

saldone 发表于 2010-5-27 17:45:07

入库的时候这些内容就直接分开了么?

lxy2010 发表于 2010-5-27 18:14:42

恩,是的。入库的时候自动分开
页: [1]
查看完整版本: 请问高手怎么采集列表页的内容.