建议增加专门的采集新闻功能,每次只采集最新的几条,多余的自动标记为已发
建议增加专门的采集新闻功能,每次只采集最新的几条,多余的自动标记为已发。这样多余的就不会下次在发布了,新闻肯定是需要最新的资讯。 难度很大吧,可以手工做规则,限制时间,不过要一天一改。理论上可行,如果火车头支持了,我也很欢迎呀! 很多人都曾经这么想过,这样子想法是很好的,但是 跟采集思路是违背的或者说限制的,采集的原理就是按页码顺序抓取的。
设计这样一个思路,也是可以的。
当规则添加一个时间标签。火车头处理该标签采集结果,然后与系统时间作对比(备注:火车头要对比所有格式时间,:Q)。如果是今天,则探测对比下一条,如果不是今天,后面直接跳过了。(备注:火车头这里可以自定义是否跳过)。
难度貌似有些大了,或者苛刻 本帖最后由 caijihome 于 2012-10-20 11:41 编辑
总的来说,楼主这个问题,用定时采集就可以解决呀!每天定时采集下来就是当天数据,难道不是吗?
第一次可能做不到,以后就好了,从这个角度讲,楼主的提问就是多此一举。 这厢有理了,但是此功能正如楼主3楼所说,这样的判断不违法采集原理,此功能可有! 支持火车。。。。历史帖子回顾中。
页:
[1]