walterhj 发表于 2008-4-20 12:06:58

我要采集论坛里主帖的内容,但这个内容是由脚本来显示的.
详细说明:
1.地址列表页面:
http://club.news.sohu.com/l-minjian-0-1-0-0.html
1.内容页面:
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85452847
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85413156
.
.
.
.
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85455093
(这些地址已经采集到了).
2.问题:
查看内容页面的源码发现主帖内容是调用new TextParser('/posts/05/17/E8/2F/content_html.txt', 'content_85452847') 来显示的,经过分析原来最终的内容页面地址是:http://bbs1.people.com.cn/posts/05/17/E8/2F/content_html.txt,即首页地址+js脚本中的地址.
请问怎样采集这个正文.有人说在多页采集中设置规则,具体怎么做?期待您的解答,谢谢!
(我的积分不足以发表新帖,只能贴在回复中,希望能够得到高手的帮助)

gen2000 发表于 2008-5-17 23:19:53

收藏了

lxfh985ii 发表于 2008-5-24 09:27:06

就想明白一个问题:是不是需要更换DLL文件??如果不更换是否还是采不出来???
页: 1 [2]
查看完整版本: 使用js调用内容文件网站的采集方法教程