|
|

楼主 |
发表于 2008-4-7 19:32:45
|
显示全部楼层
等待明天凌晨的利物浦对阵阿森纳 哇咔咔 开始写教程,今天自己做了规则 采集了美容频道的2008年的全部文章,开始是一个栏目一个栏目的做,下载图片,上传图片,发布,做了一上午.累了,下午开始几个栏目一起写规则,因为我不是做女性专门站所以频道划分不是很精细,只要是符合大类就好了,然后又是下载上传,发布.在等待中看网页,睡觉,被打3C的哥们抢带宽.想一个规则整站发布的可能性,及实现方法.发现对于phpcms来说很难,我没用过DeDe,不了解,以前改过帝国和动易的源码,现在也忘得差不多了,印象是可以的,不知改版后怎么样.在这里大体说下思路和应对办法.
前面我说过,核心的可以称为灵魂的东西就是"序和可识别",我们现在分析一下实现整站的话,需要准备什么东西.第一在一个规则下,采集内容页能分辨出频道和栏目特征,这里的解决方案很简单,因为大多数内容页都有网页导航 就是所谓的 "首页 >> 频道名称 >> 栏目名称" 这里做好规则就可以识别出,此篇文章的具体位置.OK放置一边备用.下一步我们要了解CMS的发布机制.对于PHPCMS来讲,火车头采集器的web发布模块是要写死频道ID的,而栏目ID是可控的,也就是说在一定情况下,对于PHPCMS想跨频道发布是不可能的.对于栏目而言,是每回要选择的,想在其下更改或者是修改ID的可能性有,但是要同时修改火车头的发布模块,新手一般可能会导致无法发布的烦恼死循环.那我们只能是接用CMS系统的功能,用别的方法实现.例如phpcms的typeid,其本意表现的是文章类型,也就是平常我们看到的"图文""组图"等等,在这里我们可以用它实现下级栏目,比如"美图""美文""彩妆"等等,因为typeid是可以写在post里的一个标签.而在前台表现上也和二级栏里表现一样.只是在文章结构归类上,和数据库分表存储上的程序层不一样.基本对于不是很大的站来说,没有任何影响.每个typeID对应前面的一个栏目分类.怎样转化,在标签里进行文字替换.
例如我们的内容是 首页 美容 彩妆 我们就把在发CMS里设定的相对应彩妆的typeid替换掉.而对于DZ也可以这样设定,只要在内容页能识别出来的.在发布模块能post的就可以替换.就可以整合.
[/quote]
这里没有图 是因为采集的机器没在,明天上午给大家发布一个 小说的规则 DZ2DZ 自动分类的 目标源 啃书论坛 嘿嘿 不过是图片版的.
今天放出瑞丽的栏目采集规则.心急的朋友可以先玩着.
[quote]
最终栏目规则实例 这里是单个栏目的规则
2级栏目规则实例这里是彩妆栏目的规则
当规则导入后,可以看出唯一的区别就是采集地址不一样,采集地址起始位置不一样.也就是说在不同的采集页面找出相同点和不同点的规律.加以利用就OK了.开始GO!!!
里面包含了我的网站的一些信息,没有除去,方便大家举一反三,知道哪些地方需要替换自己网站的什么地址,但相对于高手就高抬贵手,不要挂马,谢谢.祝大家今晚愉快.GOODLUCK! 吃晚饭,休息,准备看球.可爱的利物浦,哈哈.
[ 本帖最后由 7451 于 2008-4-9 00:05 编辑 ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|