发新话题
打印

phpcms 3.0采集模块发布(GBK|BIG5|UTF-8|zh-tw-Utf8)(10月12日beta1)

phpcms 3.0采集模块发布(GBK|BIG5|UTF-8|zh-tw-Utf8)(10月12日beta1)

呵呵,终于完成了,现在发布给大家

PHPCMS内置采集模块

-Module : spider
-CopyRight : PHPCMS.cn
-Author : locoy
-Modified : 2006-10-12 17:12:03
-Version : beta1


★①安装说明★

  本采集系统为PHPCMS3.0的所属模块,请在PHPCMS3.0的管理后台执行以下操作安装该程式:
  1、将程序包解压后所有文件使用FTP(二进制模式)上传到PHPCMS系统根目录下的spider目录内
  2、若您的服务器为Linux系统,请将spider/下rules文件夹的目录权限设置为777
  3、进入PHPCMS后台->系统设置->添加模块 在模块目录里填入spider下一步确认安装成功后即可使用

★②基本功能介绍★

1、使用站点+任务方式组织节点,方便采集及管理。
2、每个站点可以定义一个全局规则,任务的规则可以从站点规则中派生,也可以自己独立修改自己的规则
3、站点规则和整个任务可以自由复制,粘贴,导入,导出,方便与大家共享自己的采集资源
4、除了系统内置的标题,作者,内容等5个标签外,用户可以完全自定义其他标签,方便扩展
5、可以无限使用排除和替换
6、可以使用系统内置的13个HTML排除标签,方便排除无用html代码
7、支持内容分页采集
8、使用Cookie,支持采集需登录的网站
9、支持三种网址添加方式,支持采集区域内网址
10、支持图片,Flash以及任何自定义格式(rar|zip|exe)的文件下载到本地服务器
11、支持gbk,utf-8,big5网站的数据发布到任何gbk,utf-8,big5的phpcms编码转换
12、支持入库自定义内容和字段,可以将内容在phpcms的任何频道,模块间发布
13、支持自动生成采集时间和文章点击率,记录来源地址
14、文章在发布前可以查看,编辑至满足要求后再发布
15、多线程无刷新采集,进度条显示等等...

★③简单使用说明★

1、建立你的采集站点,因为一般的站点下的栏目规则基本相同,建议在这里定义好一个整站规则,以后从该站下建立的任务的规则将从里面直接派生
2、建立你的采集任务,这里主要定义你要采集文章的入口连接以及这些文章中结构化内容的提取,请在标签中定义好规则,高级设置中则涉及该任务是否下载文件,编码设置和多线程设置的一些问题
3、可以选择测试一下任务,或直接进入采集网址的环节,系统将自动分析每一个连接,完成后将引导你进入采集内容或查看内容(可删除无用连接)
4、开始采集内容,直到所有线程完成,系统将引导你进入发布内容或查看内容(可删除无用文章内容)
5、直接使用默认的发布内容设置或修改后,发布到您选定的频道下的栏目内
6、进入你的栏目下点击管理文章,选择是否生成html形式发布文章,至此一个任务的采集基本流程完成

下载地址连接: http://soft.phpcms.cn/2006/1012/soft_73.html

TOP

支持一下:)
;P我不用phpcms

TOP

顶下,,,我也不用phpcms,,,,

火车头,,改变开发方向呢么???????????

TOP

恭喜phpcms用户了,可惜偶现在不用了,彻底放弃phpcms。用来用去还是dede好,可拓展性强

TOP

呵呵,来晚了.支持火车!

TOP

那个用起来很不舒服呀!UTF-8还是乱码.火车头你还是把登陆模块弄个出来吧!

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.348849 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-23 19:58 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档