xintuo 发表于 2008-11-7 09:14:26

请问这个规则要怎么采集

比如说网页http://www.xxxxx.com
我在首页中查到了内容页
http://www.xxxxx.com/index/html/20081106201833000006666.shtml
这是内容页地址

然后在内容页里面
又出现了
<td align="center"><a href=/play_p2p.shtml?id=39023 target=_blank class="playlist">xxxxxxxx</a></td>

这样的数据
我要得到/play_p2p.shtml?id=39023 换成参数

请问这个规则要怎么来写>?



另外问一下..火车头有没有字符串比对.?

比如说我换取页面上有个商品类型是衣服
我得到衣服2个字与后台进行内容字符串比对
比对有衣服就加入到衣服这个分类里面去
请问有没有这个功能

[ 本帖最后由 xintuo 于 2008-11-7 09:24 编辑 ]

xintuo 发表于 2008-11-7 10:36:41

就没有一个人帮忙回答一下么...
好冷清的论坛

chenfy 发表于 2008-11-7 11:21:31

你只给了这么点资料,怎么去回答呢?按你这种表达,只能这样写<td align="center"><a href=[参数] target=_blank class="playlist">   在另一边就直接写一个[参数1]

xintuo 发表于 2008-11-7 11:54:00

那我贴完整一点
<tr>
<td width=100><a href=/index/html/20081106035552000006661.shtml target=_blank><img src=/upload/2008110603524269318.jpg class=pic style="BORDER-RIGHT: #DDDDDD 1px solid; BORDER-TOP: #DDDDDD 1px solid; BORDER-LEFT: #DDDDDD 1px solid; BORDER-BOTTOM: #DDDDDD 1px solid;width:90px;height:120px;"></a></td>
<td width=161 valign=top><table border=0 align=center cellpadding=0 cellspacing=0 width="100%">
   <tr>
    <td height=5></td>
   </tr>
   <tr>
    <td><b><a class=qt target=_blank href=/index/html/20081106035552000006661.shtml>购物惊魂记/勇妇智斗暴徒</a></b> <img src=/images/film.jpg border=0 /></td>
   </tr>
   <tr>
    <td height=10></td>
   </tr>
   <tr>
    <td><b>类别:</b>惊悚片</td>
   </tr>
   <tr>
    <td><b>主演:</b>金·贝辛格 </td>
   </tr>
   <tr>
    <td><b>上传:</b>2008-11-6</td>
   </tr>
   <tr>
    <td><b>地区:</b>欧美</td>
   </tr>
   <tr>
    <td height=25><a href=/index/html/20081106035552000006661.shtml target=_blank><img border=0 src=/images/watch.jpg /></a></td>
   </tr>
</table></td>
<td width="300" valign="top" bgcolor=#FAFDF5 align=center><table border=0 align=center cellpadding=0 cellspacing=3 width=296>
   <tr>
    <td><b>内容介绍:</b></td>
   </tr>
   <tr>
    <td align=left height=110 valign=top style="line-height:120%">一位在郊区生活的家庭主妇在去往商场的途中,必须经过一片荒凉的森林,在那里,她遇到了四名危险的暴徒。为了生存,她必须想尽办法保护自己,而她仅有的只是一个工具箱和强烈的求生意志。<BR></td>
   </tr>
</table></td>
</tr>
<tr>
<td height=3></td>
</tr>
<tr>
<td colspan=3 height=1 background=/images/dashed.gif></td>
</tr>


这一段是重复的
拿数据的地方
用我自己的自定义方法连接
<tr>
<td width=100><a href=[参数] target=_blank><img src=[缩略图] class=pic
获取到了地址以及图
然后得到了下级地址
红色部分
进入二级地址里面获取内容

<td align="center"><a href=/play_p2p.shtml?id=60991 target=_blank class="playlist">xxxxx</a></td>
      <td align="center"><a href=/play_p2p.shtml?id=60992 target=_blank class="playlist">xxxxx</a></td>


我现在有获取这个红色部分
应该怎么去获取?

xintuo 发表于 2008-11-7 15:45:49

还是没人回答我...

lxlbxcc 发表于 2008-11-7 19:33:12

学习中,,,,],,,,,

lxlbxcc 发表于 2008-11-7 19:33:45

谁能教我采集小说到我的论坛(5d6d社区的)



50RMB找人教我用采集器采集小说..教会我用
QQ470474830

李巨华 发表于 2008-11-8 11:23:08

看看,哦,原来是这样!这样一来应该不难解决的!

xintuo 发表于 2008-11-11 09:33:15

是不够详细
还是这个软件论坛
根本没人帮?
页: [1]
查看完整版本: 请问这个规则要怎么采集