本人免费为菜鸟写采集规则,老鸟请不要耻笑俺^_^要规则的请按照以下格式跟帖,我会把你要的规则作为附件编辑到该帖下。
最基本两条:
采集网址:xxx
采集要求:xxx
其他你们自由发挥,尽量让你们满意!包写规则,我不会的会自己琢磨,琢磨不出来会找高手,如果还搞不定,我会PM告诉你原由,谢谢各位支持,现在大家跟帖发要求吧,我在线刷新等待。引用:
原帖由 xyz5200 于 2008-9-9 09:58 发表 
我想所有刊名都提取出来,刊名没有对应地址的就让地址这栏空着,以保证刊名和地址是一一对应的,同时又能采到所有刊名
8楼的同学,我给你一个思路:
举一段源码的例子:
Natural Gas Monthly
Natural Grocery Buyer
Visit Web site
Publisher:Penton Media, Inc
在这里,Natural Gas Monthly 后面是没有访问网址的,但是我们看一下源码:
<div style="height:24px;margin-left:10px">
<img src="pic/small_bullet.gif" align="middle"> <a href='vn.aspx?id=1745'>
<span class="Tt">
Natural Gas Monthly
</span></a>
<br>
<br>
</div>
<div style="height:24px;margin-left:10px">
<img src="pic/small_bullet.gif" align="middle"> <a href='vn.aspx?id=4798'>
<span class="Tt">
Natural Grocery Buyer
</span></a>
<a target=_blank href="vt.aspx?url=http^!^3a^!^2f^!^2fwww^~^newhope^~^com^!^2f"><img src='pic/link.gif'> Visit Web site</a>
<br>
<br> Publisher:Penton Media, Inc<br>
</div>
注意我标识的这段源码,我个人意见是,你先获得空格以内的整段网址代码,后面用正则过滤掉或者替换法,用火车采的话,可能少有麻烦,你用其他采集器试试看,比如小蜜蜂,不知回答满意否,本人也是小菜啦^_^,我pm你哈
回复11楼的同学,我规则给出了,其实很简单
采集网址设置为:
http://www.cqvip.com/asp/vipsearch.asp?Query=TP1&Type=C
列表选定区域为:
开始代码:
<div class="ndotop"></div>
结束代码:
<div class="pages">
两个代码都是页面唯一代码,这样就可以采集到网址了,后续的内容采集我就不给出啦,因为你只要我给你列表采集规则,^_^
回答12楼同学的问题:
对于小说来说,用火车有点小费事啦,不过当然是能采了,鉴于你给的网站,我的采集思路如下:
1,采集到所有小说的列表页
2,采集到所有小说目录页
3,采集小说章节内容&作者&简介等等
思路很清晰,那么我们以
青春校园这个栏目为例子
栏目列表地址:http://www.readnovel.com/ch/10.html
火车批量/多页规则:http://www.readnovel.com/ch/(*).html 通配符自己搞啦,假设从1~100,采用倒序采集
列表选区:
开始:
<div class="zhuijin">◆最近更新的
结束:
<div class="Pager"><div class="pagehe">
都是唯一,代码也简洁,这样就可以得到所有小说首页的列表地址,
开始测试网址采集,然后点击导出二级节点,导出为文本,以此类推,获得了所有二级列表地址,通过观察:
小说首页地址:http://www.readnovel.com/novel/48484.html
小说目录页地址:http://www.readnovel.com/partlist/48484/
采集到的是第一个地址,实际上我们想获得第二个地址,只需要用记事本替换一下即可
获得小说目录页地址后,就可以导入到火车头了,然后采集目录列表页就容易多啦,后面的很简单了,不给出规则了,我估计人人都会,有要求的同学可以跟帖,我就补上,o(∩_∩)o...放上几个图
引用:
原帖由 sb110 于 2008-9-9 17:24 发表 
http://www.yjbys.com/Job-seeker/gongwuyuan.html
采集开始区域代码
采集结束区域代码
上边都对
可是在采集列表中
a target=_blank f2dfd1394983c5ca href="html/show3-149688.html" bf3c62fb6f9a9c7 ...
回答13楼同学问题,你这个问题很好搞定啦
看图说话,o(∩_∩)o...哈哈,主要需要手动填写一个网址规则即可
[
本帖最后由 yanchuanghu 于 2008-9-11 11:21 编辑 ]