多页采集内容重复?
我采集迅雷影视的时候因为他的剧情有一个单独的页面,而且我不会用http://data.movie.xunlei.com/movie/39843 多页替换到http://movie.xunlei.com/movie/39843/introduction
就只好把
http://movie.xunlei.com/movie/39843/introduction
当成主页面 再用多页采集
http://movie.xunlei.com/movie/39843/
可是我采集的时候 不但会采集到 http://movie.xunlei.com/movie/39843/introduction 里面的剧情介绍
还会采集到http://movie.xunlei.com/movie/39843/ 的剧情介绍
还有就是采集http://movie.xunlei.com/movie/39843 页面的类型等字段的时候
采集到的字段值前会自动添加 http://movie.xunlei.com/movie/39843 的连接
我把采集测试贴到2楼,希望知道的帮忙解决下。 【首映】: 2008-03-07
【类型】: http://movie.xunlei.com/movie/39843/惊悚
【标题图片】: http://images.movie.xunlei.com/gallery/439/6f26a2f8cb9716c4842fd23bed2d6523.jpg
【内容】:
<p> 从1971年发生在伦敦马里本区的劳埃德银行的著名的大劫案那里得到了灵........
<div name='leiyancontent'><p> 从1971年发生在伦敦马里本区的劳埃德银行的著名的大劫案那里........
【片长】: 110分钟
【时间】: 2008-04-14 17:12:43
【导演】: http://movie.xunlei.com/movie/39843/罗杰.唐纳森
【花絮】:
<p> 本片的故事根据发生在伦敦劳埃德银行的真实盗窃案件改编而来,......
【年代】: 2008
【标题】: 银行大劫案
【幕后】:
<p> 源于真人真事</p><p> 1971年,英国的文化氛围仍然处在习而长大,同时还驾驭着色情工业。反正是个不招人待见的家伙,他可能偶尔会展示出一点点魅力,但那也是来自于他的残忍与无情。”......
【英文标题】: The Bank Job
【主演】: http://movie.xunlei.com/movie/39843/Stephen Campbell Moore , Daniel Mays , 詹姆斯.福克纳(I) , Alki David , Michael Jibson , Richard Lintern , Don Gallagher (II) , 戴维.苏切特
【地区】: http://movie.xunlei.com/movie/39843/美国
[ 本帖最后由 jianfeng1986 于 2008-4-14 18:02 编辑 ] 应该是规则多页链接重复,这个我经常遇到。 那要怎么解决?
或者是这么样才可以从
http://data.movie.xunlei.com/movie/39843用多页采集到http://movie.xunlei.com/movie/39843/introduction
查看全文那里不可以,因为有些剧情过短不会显示采集全文
[ 本帖最后由 jianfeng1986 于 2008-4-14 17:29 编辑 ]
页:
[1]