火车头不能精确的将一个栏目的网址精确入库的问题

zhuhaisto 发表于 2013-4-2 13:05:29

像文章列表页
http://www.xxx.com/目录名/id.html
这种形式的

采集网址规则要如何是好

他发布一篇文章就生成一个id，但这篇文章却并不一定发布在同一个目录下
也就是会
http://www.xxx.com/目录名1/10000.html
http://www.xxx.com/目录名2/10001.html

id是自增的，但是没考虑到很多id都是在不同的目录，所以这个自增的法子不大好精确
像这样，如何建立网址库呢？

如果是cms自带的系统

首先让你输入列表页，列表分页的路径
然后分析列表模版代码，找出列表代码里面关于url文章里的所有网址，然后补全网址，变成采集的文章库

但我们看火车头的：
http://www.liujinseo.com/wp-content/uploads/2013/04/QQ%E6%88%AA%E5%9B%BE20130402130110-300x177.jpg

原文出处：http://www.liujinseo.com/wzjs/2013040291.html

303718 发表于 2013-4-2 16:43:44

没有看明白。主要是想表达什么呢

caijihome 发表于 2013-4-4 18:21:11

楼主没理解规则怎么写。火车头是可以多级获取深层链接的，不是你想的那样。ID自增。

zhuhaisto 发表于 2013-4-4 21:11:44

是的亲，我意识到了，也学会了，感谢于您

页: [1]

火车采集器软件交流官方论坛's Archiver

火车头不能精确的将一个栏目的网址精确入库的问题