找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6025|回复: 7

采集默认页网址的无任何关系多页链接

 关闭 [复制链接]
发表于 2008-1-20 00:05:30 | 显示全部楼层 |阅读模式
我不知道这样定义标题对不对,呵呵.因为论坛的教程偶还没看,也不知道有没有重复.(在教程区上传图片半天不成功,于是就先传到了朋友的空间连接过来,如果不行的话我晚点就去掉)

事情起因:

my9011会员:
你好,帮忙我看看这个网站的分页怎么设置
你好,帮忙我看看这个网站的分页怎么设置,http://it.rising.com.cn/Channels/Anti_Virus/Upgrade_Report/2007-12-25/1198560262d44946.shtml想采集病毒摘要和技术细节


操作方法如下,有类型情况的朋友可以参考操作:

首先我们知道了 典型页面 :
http://it.rising.com.cn/Channels/Anti_Virus/Upgrade_Report/2007-12-25/1198560262d44946.shtml
采集内容规则--------添加标签----------------填入标签名称------点右上方的管理

--------------------------------------------------------------------



弹出一个添加同时采集页面--------在左边的空白列表处-------然后点右键选择重新添加--------填入页面名称--------选择默认页源代码内取得采集地址.



添加开始字符串:<LI><A id=current href="#">病毒摘要</A>
<LI><A href="
添加结束字符串:">技术细节</A>

可以测试一下,点下方的测试得到多页地址--------填入当前病毒摘要地址-------点测试-------得到技术细节的地址--------保存.





最后回到标签页面,对照技术细节页面的源代码,过滤出内容标签就可以了。




[ 本帖最后由 沦陷今生 于 2008-1-20 00:14 编辑 ]

评分

2

查看全部评分

发表于 2008-1-20 01:30:16 | 显示全部楼层
他这个采集是可以用分页方式来进行采集的,嘎嘎
发表于 2008-1-20 08:06:27 | 显示全部楼层
题目不好,没有任何关系那就根本联系不到一块去。。
发表于 2008-1-29 10:22:25 | 显示全部楼层
学习中
发表于 2008-1-29 11:19:51 | 显示全部楼层
学习完毕,已经明了
发表于 2008-2-4 13:51:31 | 显示全部楼层
问题是 如果 http://it.rising.com.cn/Channels ... 8560262d44946.shtml 上有多个符合条件的链接,该如何操作?

举例:
我现在的采集默认页面是:http://www.51wma.com/zhuanji/863.html

但我现在希望采集各个 专辑名称  下的 专辑介绍 ,如何操作?按照上述方法只能采集到第一个专辑,而不是该歌手的专辑列表下的所有专辑,如何实现该功能呢?

我觉得解决该问题应该从如下几个方面入手:

1.深层采集。 目前火车头可以采集2级列表,但第2级如何使用,还无相关教程。也没有采集成功的案例(可能是我关注的太少)。

2.对于每1级别的采集都可以按照一定的规则修改其网页地址,如prar/3122.htm更换成price/3122.htm 或者页内采集。也就是楼主提及之功能。

3.对列表页面进行限制,防止无效采集,这就是一级页面下面用到的必须包含,不能包含和范围功能。
发表于 2008-2-10 13:29:10 | 显示全部楼层
  以前都没这个功能,一直用分页
发表于 2008-3-11 16:52:28 | 显示全部楼层
顶个没完
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表