火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 14134|回复: 34

【立杆】本人免费为菜鸟写规则,要规则的进来,包写【新加小说规则讲解】

[复制链接]
发表于 2008-9-9 09:09:33 | 显示全部楼层 |阅读模式
本人免费为菜鸟写采集规则,老鸟请不要耻笑俺^_^要规则的请按照以下格式跟帖,我会把你要的规则作为附件编辑到该帖下。

最基本两条:
采集网址:xxx
采集要求:xxx
其他你们自由发挥,尽量让你们满意!包写规则,我不会的会自己琢磨,琢磨不出来会找高手,如果还搞不定,我会PM告诉你原由,谢谢各位支持,现在大家跟帖发要求吧,我在线刷新等待。

原帖由 xyz5200 于 2008-9-9 09:58 发表
我想所有刊名都提取出来,刊名没有对应地址的就让地址这栏空着,以保证刊名和地址是一一对应的,同时又能采到所有刊名

8楼的同学,我给你一个思路:
举一段源码的例子:
  Natural Gas Monthly    
   
  
  Natural Grocery Buyer    Visit Web site
   
   Publisher:Penton Media, Inc

在这里,Natural Gas Monthly 后面是没有访问网址的,但是我们看一下源码:

<div style="height:24px;margin-left:10px">
         <img src="pic/small_bullet.gif" align="middle">  <a href='vn.aspx?id=1745'>
          <span class="Tt">
           Natural Gas Monthly
          </span></a>
            
         <br>   
         <br>
        </div>
      
        <div style="height:24px;margin-left:10px">
         <img src="pic/small_bullet.gif" align="middle">  <a href='vn.aspx?id=4798'>
          <span class="Tt">
           Natural Grocery Buyer
          </span></a>
            <a target=_blank href="vt.aspx?url=http^!^3a^!^2f^!^2fwww^~^newhope^~^com^!^2f"><img src='pic/link.gif'> Visit Web site</a>
         <br>   
         <br>   Publisher:Penton Media, Inc<br>
        </div>

注意我标识的这段源码,我个人意见是,你先获得空格以内的整段网址代码,后面用正则过滤掉或者替换法,用火车采的话,可能少有麻烦,你用其他采集器试试看,比如小蜜蜂,不知回答满意否,本人也是小菜啦^_^,我pm你哈



原帖由 xizhanbo 于 2008-9-9 14:37 发表
你先打开这个网址:http://www.cqvip.com/channel/zidonghuajsj/后,点击最左边的“自动化理论”,打开后的网址是:http://www.cqvip.com/asp/vipsearch.asp?Query=TP1&;Type=C      我要采集这个页面内列表链接的地址 ...


回复11楼的同学,我规则给出了,其实很简单
采集网址设置为:http://www.cqvip.com/asp/vipsearch.asp?Query=TP1&Type=C
列表选定区域为:
开始代码:
<div class="ndotop"></div>
结束代码:
<div class="pages">

两个代码都是页面唯一代码,这样就可以采集到网址了,后续的内容采集我就不给出啦,因为你只要我给你列表采集规则,^_^



原帖由 tulip7802 于 2008-9-9 14:53 发表
采集网址:www.readnovel.com
采集要求:作者,分类,内容,标题

谢谢


回答12楼同学的问题:

对于小说来说,用火车有点小费事啦,不过当然是能采了,鉴于你给的网站,我的采集思路如下:
1,采集到所有小说的列表页
2,采集到所有小说目录页
3,采集小说章节内容&作者&简介等等

思路很清晰,那么我们以青春校园这个栏目为例子

栏目列表地址:http://www.readnovel.com/ch/10.html
火车批量/多页规则:http://www.readnovel.com/ch/(*).html 通配符自己搞啦,假设从1~100,采用倒序采集
列表选区:
开始:
<div class="zhuijin">◆最近更新的
结束:
<div class="Pager"><div class="pagehe">
都是唯一,代码也简洁,这样就可以得到所有小说首页的列表地址,开始测试网址采集,然后点击导出二级节点,导出为文本,以此类推,获得了所有二级列表地址,通过观察:
小说首页地址:http://www.readnovel.com/novel/48484.html
小说目录页地址:http://www.readnovel.com/partlist/48484/
采集到的是第一个地址,实际上我们想获得第二个地址,只需要用记事本替换一下即可
获得小说目录页地址后,就可以导入到火车头了,然后采集目录列表页就容易多啦,后面的很简单了,不给出规则了,我估计人人都会,有要求的同学可以跟帖,我就补上,o(∩_∩)o...放上几个图






原帖由 sb110 于 2008-9-9 17:24 发表
http://www.yjbys.com/Job-seeker/gongwuyuan.html


采集开始区域代码

采集结束区域代码

上边都对
可是在采集列表中
a target=_blank f2dfd1394983c5ca href="html/show3-149688.html" bf3c62fb6f9a9c7 ...


回答13楼同学问题,你这个问题很好搞定啦

看图说话,o(∩_∩)o...哈哈,主要需要手动填写一个网址规则即可


[ 本帖最后由 yanchuanghu 于 2008-9-11 11:21 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

 楼主| 发表于 2008-9-9 09:42:44 | 显示全部楼层
楼上提问就好了,QQ下次告诉你
发表于 2008-9-9 09:42:55 | 显示全部楼层
我先占上三位.表示一下.
发表于 2008-9-9 09:44:16 | 显示全部楼层
占一位是因为我有一个问题.
发表于 2008-9-9 09:44:44 | 显示全部楼层
总共有一个规则要你帮着做.谢谢了.
发表于 2008-9-9 09:55:30 | 显示全部楼层
http://www.socolar.com/pl.aspx?P ... =%e5%8c%96%e5%ad%a6,我想提取刊名及刊名对应的地址(指Visit Web site 所对应的链接),但是有的条目没有“Visit Web site 所对应的链接”这项(如该页倒数第三项Research Journal of Applied Sciences 仅有刊名,没有地址链接  ),这种情况下怎样设定规则,才能使所提取的刊名和地址是对应的(刊名中没有对应地址的仅要刊名,对应的地址为空)
发表于 2008-9-9 09:58:14 | 显示全部楼层
我想所有刊名都提取出来,刊名没有对应地址的就让地址这栏空着,以保证刊名和地址是一一对应的,同时又能采到所有刊名
发表于 2008-9-9 11:05:23 | 显示全部楼层
楼主好人啊!啊啊啊啊啊
发表于 2008-9-9 12:04:50 | 显示全部楼层
真是大好人.哈哈.来给我弄一下嘛.
发表于 2008-9-9 14:37:47 | 显示全部楼层

帮我写一个规则,谢谢!

你先打开这个网址:http://www.cqvip.com/channel/zidonghuajsj/后,点击最左边的“自动化理论”,打开后的网址是:http://www.cqvip.com/asp/vipsearch.asp?Query=TP1&Type=C      我要采集这个页面内列表链接的地址
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-5 11:22

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表