我想把整个页面的内容全部采集到本地备份，页面规则应该如何写？

futurekb · 发表于 2012-11-29 18:32:01

我把浏览器收藏夹的内容导出为一个html，里面包含上万个不同网站的链接，我现在想把这些链接的页面全部备份到本地，用迅雷下载全部链接本来是可以的，但这样下载下来的页面文件名是完全不对的。请问用火车采集器如何写采集内容规则才能下载整个页面的内容？

303718 · 发表于 2012-11-29 18:45:05

这个好办,你直接在内容里用正则(?<content>[\s\S]*)采集就把所有内容都采下来了

futurekb · 发表于 2012-11-29 19:14:17

303718 发表于 2012-11-29 18:45
这个好办,你直接在内容里用正则(?[\s\S]*)采集就把所有内容都采下来了

多谢楼上的朋友，刚才测试了一下，你的规则是完全正确的，十分感谢。

还有一个问题想问一下，我发布保存到本地的html文件用浏览器打开全是乱码（文件名是正常的），具体情况是，如果发布时的编码选择gb2312，则最终发布的页面是乱码，如果发布时的编码选择utf8，则发布的时候连内容都没有，只有一小段乱码，请问这个问题如何解决？

帐号		自动登录	找回密码
密码			加入会员