怎样采集wap网站的文章?
要采集wap网站的书屋的文章或者一般的文章,应该怎么操作呢?好像没有这样的教程啊。 一样的采集方法呀,有木错. 可是我是新手,从来没有采集过啊,不知道怎么操作? 先学后问。 没地方学啊,看到那个新手入门的视频教程,说的不清楚,也没有模仿成功。有没有新手入门的详细的文字教程? 觉得你做采集心太浮躁了。首先,你要明确采集的目的是什么,目标站是哪个?
其次,你要懂得html。
知道了这两项,下面的工作就easy了。
火车头或者网上任何一个采集器都是为达到批量下载具有相同规律的网页页面内容而设计的自动化软件。
既然是相同规律,无非是满足如下几条(或的关系,满足一个即可):
1.某分类下的列表中的所有网页,如 搜狐--国内新闻列表下的所有新闻;
2. 具有相同格式的直接页面,如 http://www.xxxx.com/news/00001.htm, http://www.xxxx.com/news/00002.htm ,……,http://www.xxxx.com/news/0000x.htm.
采集以上网址的过程叫做采网址。
采到网址后要采集该网址下的网页内容。这时要分析该网页中具体内容的两端的唯一标识符。如采标题,用<title>,</title>为标识符,其中的内容,可以起个名字叫标题。采集内容也是这样,如<div class=content>,</div>为两端标识符。这样可以得到该页面中的具体内容。
采内容是个灵活变通的过程,要求对html代码能熟练运用,举一反三。我想楼主应该还不具备这样的功底。好好学学看网页源代码吧。
采到网页内容后可以入本地数据库,也可以发布到自己的网站,这叫发内容。
论坛中公布的新手入门教程,我想,1.楼主没有仔细看;2.楼主没有看的足够多;3.楼主看了以后没有比葫芦画瓢,自己试试。
基于此,即使有人给了楼主您所要的某网站的采集规则,你甚至都不会导入,这样可不行啊。~
以上建议,楼主三思。 谢谢楼上兄弟的忠告,我慢慢看看。
页:
[1]