采集心得【适合初学着】
玩采集有段时间了,累计了点心得,大家共享,适合初学着,希望大家多交流。我的火车头采集规则下载论坛http://caiji.5d6d.com/
用采集器前,最好:
1.先要理解采集器的工作原理:
你保存个要采集的网页,然后用记事本打开该文件,手动把要的HTML文件保留,去掉不要的HTML。这和采集器的工作原理基本一样,只是你把关键点的代码给采集器,然后告诉采集器该干吗。
2.稍微看一些HTML代码,最关键要知道HTML的结构,例如要知道:<a href= 开头的,一定有个</a>结尾。找个HTML入门教程,看个开头基本就能明白了。
KYW的采集心得
1. 我尽量避免采集论坛:因为论坛的变化比较多,我比较喜欢选HTML的网站采集。
2. 内容开始、结束范围大一点,然后增加内容删除规则。例如论坛,结束点我通常选择头贴最下面的[楼 主] 。
我的观点是:宁愿多出不要的东西,也不能少了必要的内容。
采集论坛注意点:
1. 别把这些采集进去,例如:会员签名、[ 此贴被XXXX在xxxx重新编辑 ]、奖励积分记录等等,论坛规则就复杂在这里,要删的信息特别多。
2. 别忘记把图片的相对地址替换成绝对地址。
3. 有些论坛防采集的乱码,这个比较好处理,内容里删除 <span style="font-size: 0pt;(*) </span>
4.下载文件的相对地址换成绝对地址。
5. 尽量采集论坛的无图版本,代码比较干净。
[ 本帖最后由 kyw 于 2006-11-30 17:11 编辑 ] :lol :lol :lol
帮你顶起来! 大多数,不可以用 原帖由 237698445 于 2006-11-28 16:58 发表
大多数,不可以用
都能用了,我修改好了。 :loveliness: 学习,学习 帮你弄起来 支持.有视频教程就更好了.呵呵.新手哦.. 原来是个老帖了 :) 顶起来!;)
页:
[1]