详细说明:
1.地址列表页面:
http://club.news.sohu.com/l-minjian-0-1-0-0.html
1.内容页面:
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85452847
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85413156
.
.
.
.
http://bbs1.people.com.cn/postDetail.do?boardId=2&view=1&id=85455093
(这些地址已经采集到了).
2.问题:
查看内容页面的源码发现主帖内容是调用new TextParser('/posts/05/17/E8/2F/content_html.txt', 'content_85452847') 来显示的,经过分析原来最终的内容页面地址是:http://bbs1.people.com.cn/posts/05/17/E8/2F/content_html.txt,即首页地址+js脚本中的地址.
请问怎样采集这个正文.有人说在多页采集中设置规则,具体怎么做?期待您的解答,谢谢!
(我的积分不足以发表新帖,只能贴在回复中,希望能够得到高手的帮助) 收藏了 就想明白一个问题:是不是需要更换DLL文件??如果不更换是否还是采不出来???
页:
1
[2]