提一个关于一条规则采集多个网站内容的建议

杨大爷 发表于 2008-4-7 00:50:02

目前，火车的模式，仅仅是一个规则对应一个页面，内容靠唯一的首尾代码来确定，通过正则可以实现采集两个网站的内容．

我们很需要这样的一个功能，我以下会以Google视频搜索来举例

http://video.google.cn/

搜索一个关键字，返回国内有名的几大视频站的网站地址，能不能一条规则采集了这些内容呢？？

只要会一点点正则的人，就会说当然是可以的！

那么用现在的火车能不能实现呢，答案是否定的．但是，只要火车稍稍改一下采集机制，答案将会是另人激动不已的，肯定！

搜索引擎返回A-z条地址给我们，如果我们按现在的方法，我们得建立　A-Z　条规则去分别采集，然后分别发布我们的网站上．

其实火车只要稍稍改一下，采集内容，只要多设置几条采集方法，按一定的顺序去循环匹配就行了．

现在，我们可是在规则里，设置多个标签去采集多个内容．只要一改，我们就可以设置多个标签，去采集同一个内容．

我们建立一个[标签:视频ID]去采集视频网站的视频ID，如果我们可以在这个标签里设置三个采集正则，第一个正则是采集土豆网的，第二个是采集Youku 网的，第三个是6.cn的.不管搜索引擎给我们返回哪个网站的地址，这个标签只要按这三个正则循环采集就是了．

采集到了内容，我们也可以分别给出组合方式，给出过滤什么的．如果没有采集到内容，给出一个常量或者变量．

仅此而已．

当然，现在的火车其实也可以实现，但是后期整理的话工作十分繁重．希望火车能考虑一下．

第二，是一个小功能．就是内容标签里，支持所有内容加注释（就是像编程里的注释之后，它虽存在，但无效那种效果），比如，可以在内容中把所有可能的广告代码都加入，但是通过注释的方法，去随时开启或者关掉其中的某一条或者多条。

火车头 发表于 2008-4-7 01:08:19

恩。大致看懂了。新版本正在开发中，权衡考虑一下

soarb 发表于 2008-4-7 08:57:46

我觉得第一条，现在的火车已经可以做到了。用正测判断网址，再用正测判断<embo>标签。如是是第三级的话再用多页采集结合就可以做到。但写这几个正则是不容易的事。

vus520 发表于 2008-4-8 23:44:42

顶一下。

wohense 发表于 2008-4-13 07:54:48

haven24 发表于 2010-8-30 20:15:40

第一条提议真棒。。。3楼的soarb说现在的火车可以实现这个功能了。可否做个视频教程呢ali68ls

huachuxian 发表于 2010-9-1 22:32:12

Destoon 系统的采集规则还没有哦，http://www.chinafdj.com

lbjyuer 发表于 2016-2-8 22:46:14

爪，以后学习下。。

页: [1]

火车采集器软件交流官方论坛's Archiver

提一个关于一条规则采集多个网站内容的建议