kyw 发表于 2006-11-22 17:44:29

采集心得【适合初学着】

玩采集有段时间了,累计了点心得,大家共享,适合初学着,希望大家多交流。

我的火车头采集规则下载论坛http://caiji.5d6d.com/

用采集器前,最好:
1.先要理解采集器的工作原理:
你保存个要采集的网页,然后用记事本打开该文件,手动把要的HTML文件保留,去掉不要的HTML。这和采集器的工作原理基本一样,只是你把关键点的代码给采集器,然后告诉采集器该干吗。

2.稍微看一些HTML代码,最关键要知道HTML的结构,例如要知道:<a href= 开头的,一定有个</a>结尾。找个HTML入门教程,看个开头基本就能明白了。


KYW的采集心得
1. 我尽量避免采集论坛:因为论坛的变化比较多,我比较喜欢选HTML的网站采集。

2. 内容开始、结束范围大一点,然后增加内容删除规则。例如论坛,结束点我通常选择头贴最下面的[楼 主] 。
我的观点是:宁愿多出不要的东西,也不能少了必要的内容。


采集论坛注意点:
1. 别把这些采集进去,例如:会员签名、[ 此贴被XXXX在xxxx重新编辑 ]、奖励积分记录等等,论坛规则就复杂在这里,要删的信息特别多。

2. 别忘记把图片的相对地址替换成绝对地址。

3. 有些论坛防采集的乱码,这个比较好处理,内容里删除 <span style="font-size: 0pt;(*) </span>


4.下载文件的相对地址换成绝对地址。
5.   尽量采集论坛的无图版本,代码比较干净。



[ 本帖最后由 kyw 于 2006-11-30 17:11 编辑 ]

梦想中文 发表于 2006-11-22 21:28:21

:lol :lol :lol

帮你顶起来!

237698445 发表于 2006-11-28 16:58:23

大多数,不可以用

kyw 发表于 2006-11-30 17:19:21

原帖由 237698445 于 2006-11-28 16:58 发表
大多数,不可以用

都能用了,我修改好了。 :loveliness:

wwz004 发表于 2006-11-30 18:20:23

学习,学习

eb61 发表于 2006-12-1 03:58:04

帮你弄起来

wallace 发表于 2007-5-20 23:28:28

支持.有视频教程就更好了.呵呵.新手哦..

史巴托的腹肌 发表于 2007-5-21 00:35:18

原来是个老帖了 :)

xooook 发表于 2007-7-12 17:28:08

顶起来!;)
页: [1]
查看完整版本: 采集心得【适合初学着】