火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3324|回复: 7

对自动分类 的理解

[复制链接]
发表于 2008-11-24 21:31:36 | 显示全部楼层 |阅读模式
一,自动分类的原理就是把发布配置时候的分类ID,改成一个标签

二,自动分类并不是任何站都可以自动的,必须目标站具备已经分类的特征。

     比如目标站已经分类眼睛,鼻子,嘴巴,牙齿,并且每篇文章的源码有此特征,不管是以代码的形式,或者文字的形式展示出来

     如果没有该特征,无法完成自动分类。比如依靠搜索采集的几乎所有目标站,都不可能自动分类。(比如在新浪搜索牙齿,鼻子,嘴巴然后采集这些内容,因为本来就从各个分类过来的,特征值不一致是不可以自动分类的)

三,一旦某站具备自动分类的特征,而自己站也已经完成分类,实际上大部分情况下,都是采用替换功能把特征值替换成自己站的分类ID


因为昨天看到有位朋友说到自动分类,一直以来我都没有搞过自动分类,采色说他一直是这么玩的。。。我就看了下,不知道是对还是错。。。

评分

1

查看全部评分

 楼主| 发表于 2008-11-24 21:38:24 | 显示全部楼层
给火车一个建议

能不能在标签里面增加一个   采集页地址选项呢?而不是放在发布模块里面

如果 把   采集页地址作为火车自定义 标签的一项,那么几乎所有的站 看都不看源码都可以实现自动分类的

因为 只要目标站分类,他们的分类网址都是很明显的
发表于 2008-11-24 21:42:01 | 显示全部楼层
不明白 这个意思呵呵。
发表于 2008-11-24 23:57:49 | 显示全部楼层
我直接采集栏目名称

然后设置个替换规则

把栏目名称替换为栏目ID

然后入库
 楼主| 发表于 2008-11-25 00:28:49 | 显示全部楼层
原帖由 大鸟人 于 2008-11-24 23:57 发表
我直接采集栏目名称

然后设置个替换规则

把栏目名称替换为栏目ID

然后入库




如果文章展示的页面 不包含 栏目名称呢?

傻眼了吧 呵呵
发表于 2008-11-25 20:54:01 | 显示全部楼层
楼上,

如果我采集的目标站的新闻内容全都是

news.asp?id=1-10000


而不是

news.asp?id=1-10000&fenlei=100

你还能用你这个功能吗?
 楼主| 发表于 2008-11-26 01:25:14 | 显示全部楼层
原帖由 sushy 于 2008-11-25 20:54 发表
楼上,

如果我采集的目标站的新闻内容全都是

news.asp?id=1-10000


而不是

news.asp?id=1-10000&fenlei=100

你还能用你这个功能吗?



如果网址不包含 分类特征当然是用网址来完成自动分类就不可能了

比如我们火车头论坛做了伪静态 生成的网址就不包含分类特征

但是,DZ系列没有做伪静态的就绝对包含分类特征

一般没有做伪静态的 DZ 网址都包含 &fid=  这样的标识 ,这样直接使用网址就可以完成自动分类



标签可以获得网址,总比获得不了好吧,呵呵~ 这样我们又多了一条捷径

评分

1

查看全部评分

发表于 2009-1-6 23:38:00 | 显示全部楼层
火车头的规则,似乎挺复杂的!
请问哪位大昨,有领地lingd.net的CMS发布模块?共享行吗?
http://mm188.lingd.net
http://www.x32.net.cn
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-24 22:17

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表