35 1234
发新话题
打印

[3.2版] 【立杆】本人免费为菜鸟写规则,要规则的进来,包写【新加小说规则讲解】

  这名字取的好  立杆

TOP

不知道楼主还帮新手写不,写谢过了
http://www.cnwebmasters.com/forumdisplay.php?fid=11这个网址打开后,按发布时间排序
采集从第10页到第20页就行

TOP

以下红色部分为需要的提取的参数,请问正则规则怎么写啊?谢谢
       </tr>
      
       <tr>
        <td class="lb6" smallfont" align="left">
         <span class="texthigh"></span>
        </td>
        <td class="lb6">
         2008-10-06
        </td>
        <td class="lb6">
         <span class="hotlink" >
          <span class="texthigh"></span>航空航天制造业行业:神舟7号发射,中国载人航天的又一大步
         </span>         
        </td>
        <td class="lb6">
         <span class="texthigh"></span>中投证券
        </td>
        <td class="lb6">
         <span class="texthigh"></span>真怡
        </td>
        <td class="lb6" align="center">
         <a href="YCPJYW.aspx?user=&guid=&wjs=00000028100603.pdf">
          <img alt="" src='img/filetype/pdf.gif' align="middle" style='cursor:hand;border:0px;' />
         </a>
                           
        </td>
        
       </tr>
      
       <tr>

TOP

採集網址:http://bbs.wefong.com/forumdisplay.php?fid=147
採集要求:只要能正常顯示文章即可

拜託大大囉,這下我就可以有得參考囉 真的是辛擾你了

TOP

楼主,麻烦你了.为了这个,我已经折腾了24小时还是没有搞定:

采集网址:http://aminophenol.spaces.live.com/blog/
采集要求:采集上面所有的博文,只采集标题和文章即可

遇到的问题:不知道如何得到博文链接,因为博文(固定链接)的地址没有规律
                  采集到的标题为乱码(已经尝试过所有的编码,看的出来,MSN的是UTF8,我的网站是GBK,都不行)

TOP

 35 1234
发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.185804 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 08:05 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档