火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6237|回复: 8

采集心得【适合初学着】

[复制链接]
发表于 2006-11-22 17:44:29 | 显示全部楼层 |阅读模式
玩采集有段时间了,累计了点心得,大家共享,适合初学着,希望大家多交流。

我的火车头采集规则下载论坛http://caiji.5d6d.com/

用采集器前,最好:
1.  先要理解采集器的工作原理
你保存个要采集的网页,然后用记事本打开该文件,手动把要的HTML文件保留,去掉不要的HTML。这和采集器的工作原理基本一样,只是你把关键点的代码给采集器,然后告诉采集器该干吗。

2.稍微看一些HTML代码,最关键要知道HTML的结构,例如要知道:<a href= 开头的,一定有个</a>结尾。找个HTML入门教程,看个开头基本就能明白了。


KYW的采集心得
1. 我尽量避免采集论坛:因为论坛的变化比较多,我比较喜欢选HTML的网站采集。

2. 内容开始、结束范围大一点,然后增加内容删除规则。例如论坛,结束点我通常选择头贴最下面的[楼 主]
的观点是:宁愿多出不要的东西,也不能少了必要的内容。


采集论坛注意点:
1. 别把这些采集进去,例如:会员签名、[ 此贴被XXXX在xxxx重新编辑 ]、奖励积分记录  等等,论坛规则就复杂在这里,要删的信息特别多。

2. 别忘记把图片的相对地址替换成绝对地址。

3. 有些论坛防采集的乱码,这个比较好处理,内容里删除
<span style="font-size: 0pt;(*) </span>


4.  下载文件的相对地址换成绝对地址。

5.   尽量采集论坛的无图版本,代码比较干净。



[ 本帖最后由 kyw 于 2006-11-30 17:11 编辑 ]
发表于 2006-11-22 21:28:21 | 显示全部楼层


帮你顶起来!
发表于 2006-11-28 16:58:23 | 显示全部楼层
大多数,不可以用
 楼主| 发表于 2006-11-30 17:19:21 | 显示全部楼层
原帖由 237698445 于 2006-11-28 16:58 发表
大多数,不可以用


都能用了,我修改好了。 :loveliness:
发表于 2006-11-30 18:20:23 | 显示全部楼层
学习,学习
发表于 2006-12-1 03:58:04 | 显示全部楼层
帮你弄起来
发表于 2007-5-20 23:28:28 | 显示全部楼层
支持.有视频教程就更好了.呵呵.新手哦..
发表于 2007-5-21 00:35:18 | 显示全部楼层
原来是个老帖了 :)
发表于 2007-7-12 17:28:08 | 显示全部楼层
顶起来!;)
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 06:27

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表