软件程序的获取: 搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。 安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。 在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。 在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。 接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。 然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的页,从弹出的菜单中选择“审查元素”项。 在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。
|