如果 列表页和内容页面在一个页面中如何采集呀,应该注意什么
如果列表页和内容页面在一个页面中如何采集呀,应该注意什么类似于下面网址,如果标题没连接,就是采集标题,和文章的简介作为内容,应该怎么采集呀
http://www.admin5.com/browse/20/list_2.shtml 采集深度设置为0即可 深度为0,直接采集当前页面。然后循环匹配一下。 ljklkjlkjlkjhjjkygiouh 路过用0级这样采,文章之间无法分开,还是需要采集深度1级采集
可以这样设置:
采集深度1级,自定义网址规则,在自定义时加个 标题,简介标签,同时用参数匹配出内容页,而吃后内容页的采集路过你不需要其他标签在内容页获取,那么浪费了宝贵的内容页,简介通过列表获取倒是好的途径,其他信息的还是要内容页获取
页:
[1]