我想把整个页面的内容全部采集到本地备份,页面规则应该如何写?
我把浏览器收藏夹的内容导出为一个html,里面包含上万个不同网站的链接,我现在想把这些链接的页面全部备份到本地,用迅雷下载全部链接本来是可以的,但这样下载下来的页面文件名是完全不对的。请问用火车采集器如何写采集内容规则才能下载整个页面的内容? 这个好办,你直接在内容里用正则(?<content>[\s\S]*)采集就把所有内容都采下来了 303718 发表于 2012-11-29 18:45 static/image/common/back.gif这个好办,你直接在内容里用正则(?[\s\S]*)采集就把所有内容都采下来了
多谢楼上的朋友,刚才测试了一下,你的规则是完全正确的,十分感谢。
还有一个问题想问一下,我发布保存到本地的html文件用浏览器打开全是乱码(文件名是正常的),具体情况是,如果发布时的编码选择gb2312,则最终发布的页面是乱码,如果发布时的编码选择utf8,则发布的时候连内容都没有,只有一小段乱码,请问这个问题如何解决?
页:
[1]