火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7105|回复: 13

火车头不能做的事(超难的多页采集)

[复制链接]
发表于 2008-4-12 18:52:29 | 显示全部楼层 |阅读模式
这个采集内容有的要登陆才能采到全部文章.但在文章低部有个脚本得点击才能出现另一个页面显示全文
http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm 这是内容页 (不是全文)


http://www3.100md.com/htmlcontentb.asp?url=/html/Dir/2004/11/10/49/11/47.htm  这是全文


     呵呵  我想这个要是能完美采集的话. 我看我得买个标准版了. 因为我的网站内容大部分来自这个网站
发表于 2008-4-12 19:02:20 | 显示全部楼层



你想想办法啊
 楼主| 发表于 2008-4-12 19:06:20 | 显示全部楼层
呵呵  我也是新手. 刚入点门.  所以才没买标准版.  不过上面的多页采集我弄了好几天.也没办法
发表于 2008-4-12 19:09:06 | 显示全部楼层
晕!我当是什么难题呢? 小ks!
发表于 2008-4-12 19:09:48 | 显示全部楼层
普通版完全可以!
发表于 2008-4-12 19:14:38 | 显示全部楼层
发表于 2008-4-12 19:25:42 | 显示全部楼层
原帖由 rq204 于 2008-4-12 19:14 发表
在多页中

http://www.100md.com/html/Dir/2004/11/10/49/11/47.htm中的
http://www.100md.com
替换成http://www3.100md.com/htmlcontentb.asp?url=/
就可以成下边的
http://www3.100md.com/htmlcontentb.as ...


呵呵,也没这么简单嘛!这是记录来路的
 楼主| 发表于 2008-4-12 19:36:09 | 显示全部楼层
这个方法.我试了,不行.采到的只是把不全的文章从付采一遍. 
 楼主| 发表于 2008-4-12 19:41:02 | 显示全部楼层
我把火车头的教程都看过了. 还在网上找了好多正则软件(RegexTester,正则验证工具,正则狗,MTracer,T-Regex,正则工具).看看正则可以不.   没学会
发表于 2008-4-12 19:52:21 | 显示全部楼层
标题党帖子一般难得到实质性解答,说明问题详细情况即可.

[ 本帖最后由 沦陷今生 于 2008-4-12 19:54 编辑 ]
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-18 18:54

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表