杨大爷 发表于 2008-4-7 00:50:02

提一个关于一条规则采集多个网站内容的建议

目前,火车的模式,仅仅是一个规则对应一个页面,内容靠唯一的首尾代码来确定,通过正则可以实现采集两个网站的内容.

我们很需要这样的一个功能,我以下会以Google视频搜索来举例

http://video.google.cn/

搜索一个关键字,返回国内有名的几大视频站的网站地址,能不能一条规则采集了这些内容呢??

只要会一点点正则的人,就会说当然是可以的!

那么用现在的火车能不能实现呢,答案是否定的.但是,只要火车稍稍改一下采集机制,答案将会是另人激动不已的,肯定!

搜索引擎返回A-z条地址给我们,如果我们按现在的方法,我们得建立 A-Z 条规则去分别采集,然后分别发布我们的网站上.

其实火车只要稍稍改一下,采集内容,只要多设置几条采集方法,按一定的顺序去循环匹配就行了.

现在,我们可是在规则里,设置多个标签去采集多个内容.只要一改,我们就可以设置多个标签,去采集同一个内容.

我们建立一个[标签:视频ID]去采集视频网站的视频ID,如果我们可以在这个标签里设置三个采集正则,第一个正则是采集土豆网的,第二个是采集Youku 网的,第三个是6.cn的.不管搜索引擎给我们返回哪个网站的地址,这个标签只要按这三个正则循环采集就是了.

采集到了内容,我们也可以分别给出组合方式,给出过滤什么的.如果没有采集到内容,给出一个常量或者变量.

仅此而已.

当然,现在的火车其实也可以实现,但是后期整理的话工作十分繁重.希望火车能考虑一下.

第二,是一个小功能.就是内容标签里,支持所有内容加注释(就是像编程里的注释之后,它虽存在,但无效那种效果),比如,可以在内容中把所有可能的广告代码都加入,但是通过注释的方法,去随时开启或者关掉其中的某一条或者多条。

火车头 发表于 2008-4-7 01:08:19

恩。大致看懂了。新版本正在开发中,权衡考虑一下

soarb 发表于 2008-4-7 08:57:46

我觉得第一条,现在的火车已经可以做到了。用正测判断网址,再用正测判断<embo>标签。如是是第三级的话再用多页采集结合就可以做到。但写这几个正则是不容易的事。

vus520 发表于 2008-4-8 23:44:42

顶一下。

wohense 发表于 2008-4-13 07:54:48

:(

haven24 发表于 2010-8-30 20:15:40

第一条提议真棒。。。3楼的soarb说现在的火车可以实现这个功能了。可否做个视频教程呢ali68ls

huachuxian 发表于 2010-9-1 22:32:12

Destoon 系统的采集规则还没有哦,http://www.chinafdj.com

lbjyuer 发表于 2016-2-8 22:46:14

爪,以后学习下。。
页: [1]
查看完整版本: 提一个关于一条规则采集多个网站内容的建议