关于搜狐论坛的采集
搜狐论坛的采集,请高人指教!~下面是以前关于搜狐论坛采集的帖子,原帖不能回复. 照着这个帖子给出的方法,只能采集到论坛的主帖,回复采集不下来.
http://bbs.locoy.com/viewthread.php?tid=19013&extra=&highlight=%CB%D1%BA%FC&page=1
看了下代码.结果差点吐血
拿下面这贴说.
http://club.astro.sohu.com/r-astrology-761300-0-159-0.html
看的很复杂
其实找到下面这地址就行了.
http://mirror4.club.sohu.com/readjsnew-astrology-761300-0.html
就写在源码里.
打开看后晕倒.
用个分页采集搞定.
TT截图未命名.jpg (102.09 KB)
下载次数:26
2007-11-13 02:31
http://bbs.locoy.com/attachments/month_0711/20071113_f88c8c6e1e9bcf44c65bEME8K28Wk2BM.jpg
我试了一下:
例:
原帖:http://club.women.sohu.com/r-zhenxing-283740-0-278-0.html
可采地址(只有主帖,没有回帖):http://mirror4.club.sohu.com/readjsnew-zhenxing-283740-0.html
通过自定义链接格式,将原帖地址替换成可采集的地址:
http://club.women.sohu.com/r-zhenxing-[参数]-0-(*)-0.html
http://mirror4.club.sohu.com/readjsnew-zhenxing-[参数1]-0.html
但只能采集到主帖,回帖该怎么采呢? 并不是每个论坛都可以采集到回帖 这种的话你将主题和回复换一下位置,用循环和多页应可以采到了 新的问题:
要采集的页面:http://club.women.sohu.com/r-zhenxing-283740-0-278-0.html
页面里已经含有主帖和回复地址:<script src=http://mirror8.club.sohu.com/readjsnew-zhenxing-283740-1233634545.html></script>
现在的问题是: 如何将地址里的内容提取出来? 有人说用分页采集, 我试了很多种方法, 没搞定,请教高人!
【出处】:
【标题】: 北京米杨毁我一生眼睛严重失败拉皮14天眼19天,第1页 - 搜狐社区
【内容】: http://mirror8.club.sohu.com/readjsnew-zhenxing-283740-1233634545.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283741-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283742-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283750-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283763-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283784-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283785-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283789-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283802-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283810-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283821-0.html|||http://mirror8.club.sohu.com/readjsnew-zhenxing-283823-0.html 这种的话你将主题和回复换一下位置,用循环和多页应可以采到了
rq204 发表于 2009-2-3 21:59 http://bbs.locoy.com/images/common/back.gif
请问怎么换位置,能否说得清晰一点,谢谢! 这个问题说起来很绕嘴, 就是如何采集内容页里的地址里的内容? 我也是到了楼主这步采不了了。。
能采集到一各回复,,第二个采不到了 在同时采集多页面那里根本不能循环。。
页:
[1]