火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2048|回复: 2

我想把整个页面的内容全部采集到本地备份,页面规则应该如何写?

[复制链接]
发表于 2012-11-29 18:32:01 | 显示全部楼层 |阅读模式
我把浏览器收藏夹的内容导出为一个html,里面包含上万个不同网站的链接,我现在想把这些链接的页面全部备份到本地,用迅雷下载全部链接本来是可以的,但这样下载下来的页面文件名是完全不对的。请问用火车采集器如何写采集内容规则才能下载整个页面的内容?
发表于 2012-11-29 18:45:05 | 显示全部楼层
这个好办,你直接在内容里用正则(?<content>[\s\S]*)采集就把所有内容都采下来了
 楼主| 发表于 2012-11-29 19:14:17 | 显示全部楼层
303718 发表于 2012-11-29 18:45
这个好办,你直接在内容里用正则(?[\s\S]*)采集就把所有内容都采下来了

多谢楼上的朋友,刚才测试了一下,你的规则是完全正确的,十分感谢。

还有一个问题想问一下,我发布保存到本地的html文件用浏览器打开全是乱码(文件名是正常的),具体情况是,如果发布时的编码选择gb2312,则最终发布的页面是乱码,如果发布时的编码选择utf8,则发布的时候连内容都没有,只有一小段乱码,请问这个问题如何解决?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-24 12:09

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表