fengzixie 发表于 2015-8-20 18:16:54

关于电影采集的问题

本帖最后由 fengzixie 于 2015-8-20 18:24 编辑

用的是dedecms的内核,现在采集一个电影站,是采集电视连续剧,比如今天目标站更新到12集采集回来了。明天目标那个网页更新到了14集,再采集的话要么就是提示重复了不采集,要么把记录删除了采集,又生成了一个不同一样的页面!

请问这个怎么搞呢,也就是说今天采集那个目标我只要求他更新内容就是了,也就是昨天采集的那个更新内容,如何判断目标站这个链接内容是否更新,更新的话及我的站就采集他最新内容进行更新???好像火车头只能判断重复链接,不能判断这个链接内容是否有更新,如何实现呢?

mlcn88 发表于 2015-8-21 00:57:50

更新内容其实可以用时间来判断,但是至于怎么发布就不知道了

hanbingtel 发表于 2015-8-21 04:07:00

dedecms,每次发布,都会生成新的html页面。
楼上哥们儿也说了,可以采集到【更新之后】的文章页面。但是,发布之后,最好是要删掉之前的 12集的那个页面,但是织梦怎么删掉,这个就不会了。

303718 发表于 2015-8-21 08:58:58

连续更新的得用有此功能的免登陆接口才行。普通接口不行的。

lipei018 发表于 2015-8-22 23:44:09

这个你上网上去搜看看啊

jackylee168 发表于 2015-8-25 18:15:53

嗯额恩。我帮顶把!不好回答

cnbeijingman 发表于 2015-8-25 23:51:21

帮你顶!希望你能找到答案

397622001 发表于 2015-8-26 12:56:22

帮顶,期待您尽早找到答案!

dqzi 发表于 2015-8-26 17:59:50

高手在民间,多顶顶总会有人回答的
页: [1]
查看完整版本: 关于电影采集的问题