提一个关于一条规则采集多个网站内容的建议
目前,火车的模式,仅仅是一个规则对应一个页面,内容靠唯一的首尾代码来确定,通过正则可以实现采集两个网站的内容.我们很需要这样的一个功能,我以下会以Google视频搜索来举例
http://video.google.cn/
搜索一个关键字,返回国内有名的几大视频站的网站地址,能不能一条规则采集了这些内容呢??
只要会一点点正则的人,就会说当然是可以的!
那么用现在的火车能不能实现呢,答案是否定的.但是,只要火车稍稍改一下采集机制,答案将会是另人激动不已的,肯定!
搜索引擎返回A-z条地址给我们,如果我们按现在的方法,我们得建立 A-Z 条规则去分别采集,然后分别发布我们的网站上.
其实火车只要稍稍改一下,采集内容,只要多设置几条采集方法,按一定的顺序去循环匹配就行了.
现在,我们可是在规则里,设置多个标签去采集多个内容.只要一改,我们就可以设置多个标签,去采集同一个内容.
我们建立一个[标签:视频ID]去采集视频网站的视频ID,如果我们可以在这个标签里设置三个采集正则,第一个正则是采集土豆网的,第二个是采集Youku 网的,第三个是6.cn的.不管搜索引擎给我们返回哪个网站的地址,这个标签只要按这三个正则循环采集就是了.
采集到了内容,我们也可以分别给出组合方式,给出过滤什么的.如果没有采集到内容,给出一个常量或者变量.
仅此而已.
当然,现在的火车其实也可以实现,但是后期整理的话工作十分繁重.希望火车能考虑一下.
第二,是一个小功能.就是内容标签里,支持所有内容加注释(就是像编程里的注释之后,它虽存在,但无效那种效果),比如,可以在内容中把所有可能的广告代码都加入,但是通过注释的方法,去随时开启或者关掉其中的某一条或者多条。 恩。大致看懂了。新版本正在开发中,权衡考虑一下 我觉得第一条,现在的火车已经可以做到了。用正测判断网址,再用正测判断<embo>标签。如是是第三级的话再用多页采集结合就可以做到。但写这几个正则是不容易的事。 顶一下。 :( 第一条提议真棒。。。3楼的soarb说现在的火车可以实现这个功能了。可否做个视频教程呢ali68ls Destoon 系统的采集规则还没有哦,http://www.chinafdj.com 爪,以后学习下。。
页:
[1]