51CTO文章分页内容怎么采集

amwyygycep 发表于 2011-3-6 13:28:38

如果没有分页我可以采集出来，但有分页结束字符串没有相符的，求好人告知？
要能采集到以下两种类型。一种有分页的，还有一种没分页的
有分页：http://os.51cto.com/art/201101/243021.htm
没有分页 http://os.51cto.com/art/200912/169283.htm

amwyygycep 发表于 2011-3-6 15:41:16

怎么没人顶呀，，

zjyk1984 发表于 2011-3-6 16:37:54

使用正则就可以了{:4_180:}

amwyygycep 发表于 2011-3-6 17:36:35

谢谢，能不能把正则代码发上来，我看不懂

solotraveler 发表于 2011-3-6 23:02:27

os_51cto_com采集规则
http://www.dataindex.org/forum-viewthread-tid-91-fromuid-2.html

wxl08 发表于 2011-3-7 10:11:26

内容分页采集，在采集器的第二步设置分页采集区域,如下图

使用全部列出模式
开始字符串：<table width='100%'><tr><td align='center' width='100%' >
结束字符串：</a>

在标签编辑框中勾选该标签在分页中匹配

蔡森斌 发表于 2011-3-7 10:33:57

在内容页面分页区域填写好分页规则，不管文章有没有分页，都能采集的到，只是采集结果，如果文章本身没分页，就直接得到结果，有分页的会将分页的内容都采集到。

页: [1]

火车采集器软件交流官方论坛's Archiver

51CTO文章分页内容怎么采集