|
发表于 2008-2-10 22:57:50
|
显示全部楼层
觉得你做采集心太浮躁了。
首先,你要明确采集的目的是什么,目标站是哪个?
其次,你要懂得html。
知道了这两项,下面的工作就easy了。
火车头或者网上任何一个采集器都是为达到批量下载具有相同规律的网页页面内容而设计的自动化软件。
既然是相同规律,无非是满足如下几条(或的关系,满足一个即可):
1. 某分类下的列表中的所有网页,如 搜狐--国内新闻 列表下的所有新闻;
2. 具有相同格式的直接页面,如 http://www.xxxx.com/news/00001.htm, http://www.xxxx.com/news/00002.htm ,……,http://www.xxxx.com/news/0000x.htm.
采集以上网址的过程叫做采网址。
采到网址后要采集该网址下的网页内容。这时要分析该网页中具体内容的两端的唯一标识符。如采标题,用<title>,</title>为标识符,其中的内容,可以起个名字叫标题。采集内容也是这样,如<div class=content>,</div>为两端标识符。这样可以得到该页面中的具体内容。
采内容是个灵活变通的过程,要求对html代码能熟练运用,举一反三。我想楼主应该还不具备这样的功底。好好学学看网页源代码吧。
采到网页内容后可以入本地数据库,也可以发布到自己的网站,这叫发内容。
论坛中公布的新手入门教程,我想,1.楼主没有仔细看;2.楼主没有看的足够多;3.楼主看了以后没有比葫芦画瓢,自己试试。
基于此,即使有人给了楼主您所要的某网站的采集规则,你甚至都不会导入,这样可不行啊。~
以上建议,楼主三思。 |
|