pagedown231 发表于 2008-8-16 10:01:43

给2008版的三个建议.

一.建议在全局菜单里面增加一个锁定修改任务采网址,采信息,发信息功能.
    因为听见有朋友说,其实我自己也有这个经历,就是任务太多的时候,某一些任务在运行,系统有点卡了,但是某些任务我们又想修改一下.就展开站点,结果一不注意,很多任务的发信息就被全取消掉了.

二.就是系统目录,名称前面都有他的ID号,在软件任务名称前能不能也加上他的ID号?
    因为如果出现多个站点下面任务名称重名,就还真的不知道如何去区分他.

三.最重要的一个,就是全局里面有一个功能,就是判断重复网址,如果超过10条(可以自己设),就不进行采集了.这个功能的确很好.我的建议是能不能把这个功能扩展到站点属性,任务属性里面,优先判断任务再判断站点再判断全局设置.默认状态下面,站点与任务的是为空,这样就和现在一样了,如果有需要的人直接去设置一下站点或者任务的可以了.
下面我就要说为什么要这么做.
因为大家要采集的信息大多为好几个站,而且某类型的网站他的栏目上百上千个,而自己的网站又没有这么多栏目,只好把它某一个栏目下面的N个小栏目都采集到你指定的一个栏目中.如果他们每个小栏目的规则都一样.
这样的话,规则一般都会写成在采集的网址里面一般都会写成:

http://list.china.alibaba.com/buyer/offerlist/16-p(*).html?post_time=1&max_cat_id=16&trade_type=1
http://list.china.alibaba.com/buyer/offerlist/17-p(*).html?post_time=1&max_cat_id=17&trade_type=1
http://list.china.alibaba.com/buyer/offerlist/18-p(*).html?post_time=1&max_cat_id=18&trade_type=1
http://list.china.alibaba.com/buyer/offerlist/19-p(*).html?post_time=1&max_cat_id=19&trade_type=1

这样写,就会把这四个栏目采集到你指定的一个栏目当中,然后一般采集一遍后,我们又会把规则修改为只采集前面几十页,因为最需要采集最新的就行了.但这时候问题就出来了,如果第一个小栏目没有更新,或者更新小,这时候下面的就不会被采集了.
这时候有人可能会问,你把全局设为0不就行了?我也想过这个问题,但是任务过多,设成0的话,就会所有任务都会把任务网址采一个遍,这样对架了N个站,任务规则有NNN条的人来说,软件在定时采集的时候时间会花得更久.

希望我的这几个建议对大家有帮助.
希望管理员能够优化这几个建议.

pagedown231 发表于 2008-8-16 10:17:37

继续增加一条建议:

希望在规则面版中增加一个功能,标签不包含以下标签.
大家一般采集信息都是这样写的吧,先选所有标签,再在删除里面写:
<javascript(*)/script>
......
再在替换里面写
<br> -> 回车

这是最简单得到纯文本的办法了,
但是这样写,没有办法得到图片,大家是怎么得到文字加图片的,难道不能勾所有标签?而且还要在删除里面去增加一个二个大家都基本上不用的HTML标签吗?
所以我感觉如果增加一个HTML标签不包含以下标签.如:<img|<embed
这样就不会过滤图片和FLASH了,这样很方便呀!

xyz5200 发表于 2008-8-16 10:19:32

三条一出,方便很多啊特别是大用量用户.

pagedown231 发表于 2008-8-16 13:02:30

所以说,实用才是王道!

pagedown231 发表于 2008-8-23 14:57:55

继续增加一条建议:

希望在规则面版中增加一个功能,标签不包含以下标签.
大家一般采集信息都是这样写的吧,先选所有标签,再在删除里面写:
<javascript(*)/script>
......
再在替换里面写
<br> -> 回车

这是最简单得到纯文本的办法了,
但是这样写,没有办法得到图片,大家是怎么得到文字加图片的,难道不能勾所有标签?而且还要在删除里面去增加一个二个大家都基本上不用的HTML标签吗?
所以我感觉如果增加一个HTML标签不包含以下标签.如:<img|<embed
这样就不会过滤图片和FLASH了,这样很方便呀!

yjlrwmqj 发表于 2008-8-23 19:22:10

我想知道怎么采集
一篇文章里面 既有图片 又有内部连接和一些好的外部连接 而且文章中还有附件
(有需要过滤的 希望能只过滤含有某个关键词的a连接,比如连接地址是http://bbs.locoy.com/spider-29260-1-1.html这样的,只需要过滤 含有locoy的连接就可以了)
但是附件都是内部下载连接 要不也过滤掉了?
那就要分 后缀 但是有的附件的也是没后缀的
怎么解决???

哎 好麻烦啊!

lbjyuer 发表于 2016-2-10 01:24:47

历史帖子回顾中。
页: [1]
查看完整版本: 给2008版的三个建议.