zhuhaisto 发表于 2013-4-2 13:05:29

火车头不能精确的将一个栏目的网址精确入库的问题

像文章列表页
http://www.xxx.com/目录名/id.html
这种形式的

采集网址规则要如何是好

他发布一篇文章就生成一个id,但这篇文章却并不一定发布在同一个目录下
也就是会
http://www.xxx.com/目录名1/10000.html
http://www.xxx.com/目录名2/10001.html

id是自增的,但是没考虑到很多id都是在不同的目录,所以这个自增的法子不大好精确
像这样,如何建立网址库呢?

如果是cms自带的系统

首先让你输入列表页,列表分页的路径
然后分析列表模版代码,找出列表代码里面关于url文章里的所有网址,然后补全网址,变成采集的文章库

但我们看火车头的:
http://www.liujinseo.com/wp-content/uploads/2013/04/QQ%E6%88%AA%E5%9B%BE20130402130110-300x177.jpg

原文出处:http://www.liujinseo.com/wzjs/2013040291.html

303718 发表于 2013-4-2 16:43:44

没有看明白。主要是想表达什么呢

caijihome 发表于 2013-4-4 18:21:11

楼主没理解规则怎么写。 火车头是可以多级获取深层链接的,不是你想的那样。ID自增。

zhuhaisto 发表于 2013-4-4 21:11:44

是的亲,我意识到了,也学会了,感谢于您
页: [1]
查看完整版本: 火车头不能精确的将一个栏目的网址精确入库的问题