火车头不能精确的将一个栏目的网址精确入库的问题

zhuhaisto · 发表于 2013-4-2 13:05:29

像文章列表页
http://www.xxx.com/目录名/id.html
这种形式的

采集网址规则要如何是好

他发布一篇文章就生成一个id，但这篇文章却并不一定发布在同一个目录下
也就是会
http://www.xxx.com/目录名1/10000.html
http://www.xxx.com/目录名2/10001.html

id是自增的，但是没考虑到很多id都是在不同的目录，所以这个自增的法子不大好精确
像这样，如何建立网址库呢？

如果是cms自带的系统

首先让你输入列表页，列表分页的路径
然后分析列表模版代码，找出列表代码里面关于url文章里的所有网址，然后补全网址，变成采集的文章库

但我们看火车头的：

原文出处：http://www.liujinseo.com/wzjs/2013040291.html

303718 · 发表于 2013-4-2 16:43:44

没有看明白。主要是想表达什么呢

caijihome · 发表于 2013-4-4 18:21:11

楼主没理解规则怎么写。火车头是可以多级获取深层链接的，不是你想的那样。ID自增。

zhuhaisto · 发表于 2013-4-4 21:11:44

是的亲，我意识到了，也学会了，感谢于您

帐号		自动登录	找回密码
密码			加入会员