关于电影采集的问题
本帖最后由 fengzixie 于 2015-8-20 18:24 编辑用的是dedecms的内核,现在采集一个电影站,是采集电视连续剧,比如今天目标站更新到12集采集回来了。明天目标那个网页更新到了14集,再采集的话要么就是提示重复了不采集,要么把记录删除了采集,又生成了一个不同一样的页面!
请问这个怎么搞呢,也就是说今天采集那个目标我只要求他更新内容就是了,也就是昨天采集的那个更新内容,如何判断目标站这个链接内容是否更新,更新的话及我的站就采集他最新内容进行更新???好像火车头只能判断重复链接,不能判断这个链接内容是否有更新,如何实现呢?
更新内容其实可以用时间来判断,但是至于怎么发布就不知道了 dedecms,每次发布,都会生成新的html页面。
楼上哥们儿也说了,可以采集到【更新之后】的文章页面。但是,发布之后,最好是要删掉之前的 12集的那个页面,但是织梦怎么删掉,这个就不会了。 连续更新的得用有此功能的免登陆接口才行。普通接口不行的。 这个你上网上去搜看看啊 嗯额恩。我帮顶把!不好回答 帮你顶!希望你能找到答案 帮顶,期待您尽早找到答案! 高手在民间,多顶顶总会有人回答的
页:
[1]