火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
12
返回列表 发新帖
楼主: laop

使用js调用内容文件网站的采集方法教程

 关闭 [复制链接]
发表于 2008-4-20 12:06:58 | 显示全部楼层
我要采集论坛里主帖的内容,但这个内容是由脚本来显示的.
详细说明:
1.地址列表页面:
http://club.news.sohu.com/l-minjian-0-1-0-0.html
1.内容页面:
http://bbs1.people.com.cn/postDe ... w=1&id=85452847
http://bbs1.people.com.cn/postDe ... w=1&id=85413156
.
.
.
.
http://bbs1.people.com.cn/postDe ... w=1&id=85455093
(这些地址已经采集到了).
2.问题:
查看内容页面的源码发现主帖内容是调用new TextParser('/posts/05/17/E8/2F/content_html.txt', 'content_85452847') 来显示的,经过分析原来最终的内容页面地址是:http://bbs1.people.com.cn/posts/05/17/E8/2F/content_html.txt,即首页地址+js脚本中的地址.
请问怎样采集这个正文.有人说在多页采集中设置规则,具体怎么做?期待您的解答,谢谢!
(我的积分不足以发表新帖,只能贴在回复中,希望能够得到高手的帮助)
发表于 2008-5-17 23:19:53 | 显示全部楼层
收藏了
发表于 2008-5-24 09:27:06 | 显示全部楼层
就想明白一个问题:是不是需要更换DLL文件??如果不更换是否还是采不出来???
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 11:13

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表