amwyygycep 发表于 2011-3-6 13:28:38

51CTO文章分页内容怎么采集

如果没有分页我可以采集出来,但有分页结束字符串没有相符的,求好人告知?
要能采集到以下两种类型。一种有分页的,还有一种没分页的
有分页:http://os.51cto.com/art/201101/243021.htm
没有分页 http://os.51cto.com/art/200912/169283.htm

amwyygycep 发表于 2011-3-6 15:41:16

怎么没人顶呀,,

zjyk1984 发表于 2011-3-6 16:37:54

使用正则就可以了{:4_180:}

amwyygycep 发表于 2011-3-6 17:36:35

谢谢,能不能把正则代码 发上来,我看不懂

solotraveler 发表于 2011-3-6 23:02:27

os_51cto_com采集规则
http://www.dataindex.org/forum-viewthread-tid-91-fromuid-2.html

wxl08 发表于 2011-3-7 10:11:26

内容分页采集,在采集器的第二步设置分页采集区域,如下图

使用全部列出模式
开始字符串:<table width='100%'><tr><td align='center' width='100%' >
结束字符串:</a>

在标签编辑框中勾选该标签在分页中匹配

蔡森斌 发表于 2011-3-7 10:33:57

在内容页面分页区域填写好分页规则,不管文章有没有分页,都能采集的到,只是采集结果,如果文章本身没分页,就直接得到结果,有分页的会将分页的内容都采集到。
页: [1]
查看完整版本: 51CTO文章分页内容怎么采集