t5z 发表于 2008-8-27 15:11:11

采集内容分页问题,实在没招了。。

这两天才研究火车头,虽然断断续续有问题,但是在论坛找答案自己多次尝试,模仿等。。还算大部分能解决了。

下面这个页面捣鼓了一上午终于将内容给弄出来了,可是在采集分页的时候总是出错,又是一天,结果没有搞明白,很受打击。

采集的页面是这个:
http://pic.daqi.com/editor/slide/ent_slide/2159135/1.html

分页是从
http://www.daqi.com/slide/images/next_1.gif

http://www.daqi.com/slide/images/next_2.gif

可是采出来的结果。。。。乱七八糟,还有一些不属于本页的。

无奈之下,求助各位大大了。。。感激不尽!
████████████████████████████████████
█此页面包含多个分页:
█1:http://pic.daqi.com/bbs/00/2159135.html
█2:http://pic.daqi.com/bbs/00/1.html#t
█3:http://pic.daqi.com/bbs/00/2.html#t
█4:http://pic.daqi.com/bbs/00/3.html#t
█5:http://pic.daqi.com/bbs/00/4.html#t
█6:http://pic.daqi.com/bbs/00/5.html#t
█7:http://pic.daqi.com/bbs/00/6.html#t
█8:http://pic.daqi.com/bbs/00/7.html#t
█9:http://pic.daqi.com/bbs/00/8.html#t
█10:http://pic.daqi.com/bbs/00/9.html#t
█11:http://pic.daqi.com/bbs/00/10.html#t
█12:http://pic.daqi.com/bbs/00/11.html#t
█13:http://pic.daqi.com/bbs/00/12.html#t
█14:http://pic.daqi.com/editor/slide/pic_slide/2159135/2.html#t
█15:http://pic.daqi.com/editor/slide/pic_slide/2159135/1.html#t
█16:http://pic.daqi.com/editor/slide/pic_slide/2159135/3.html#t
█17:http://pic.daqi.com/editor/slide/pic_slide/2159135/4.html#t
█18:http://pic.daqi.com/editor/slide/pic_slide/2159135/5.html#t
█19:http://pic.daqi.com/editor/slide/pic_slide/2159135/6.html#t
█20:http://pic.daqi.com/editor/slide/pic_slide/2159135/7.html#t
█21:http://pic.daqi.com/editor/slide/pic_slide/2159135/8.html#t
█22:http://pic.daqi.com/editor/slide/pic_slide/2159135/9.html#t
█23:http://pic.daqi.com/editor/slide/pic_slide/2159135/10.html#t
█24:http://pic.daqi.com/editor/slide/pic_slide/2159135/11.html#t
█25:http://pic.daqi.com/editor/slide/pic_slide/2159135/12.html#t
█26:http://pic.daqi.com/editor/slide/pic_slide/2159126/1.html#t
█27:http://pic.daqi.com/editor/slide/pic_slide/2159126/2.html#t
█28:http://pic.daqi.com/editor/slide/pic_slide/2159126/3.html#t
█29:http://pic.daqi.com/editor/slide/pic_slide/2159126/4.html#t
█30:http://pic.daqi.com/editor/slide/pic_slide/2159126/5.html#t
█有分页匹配的标签,比如内容注意选中标签编辑框中的[该标签在分页中匹配]
████████████████████████████████████

xiazaib 发表于 2008-8-29 21:30:13

有个页面必须包括 写上试试 editor/slide/pic_slide/

t5z 发表于 2008-9-2 14:59:04

原帖由 xiazaib 于 2008-8-29 21:30 发表 http://bbs.locoy.com/images/common/back.gif
有个页面必须包括 写上试试 editor/slide/pic_slide/

看到你回话了,首先感谢一下。N天没人理我,我都感觉没意思了。。。

你所说的:

页面必须包含,这个没找到,你是不是指采集网址规则里面的?里面就一个,我这是分页的规则啊。。

另外,如果包含了你所说的editor/slide/pic_slide/,但是你看看上面的那些列表,不是一个标题下的也给顺道采集了。


郁闷啊,心灰意冷,这个还是放弃吧!
页: [1]
查看完整版本: 采集内容分页问题,实在没招了。。