一个软件 HTTrack,可以把一整个网站镜像/爬取/保存到硬盘里!
https://www.httrack.com/
大概就是你先给它一个网址,它把那个网页保存下来,然后看看该页面里有哪些超链接,然后再把那些超链接的页面也都分别给保存下来,依次类推……如果做一些设置且硬盘空间足够,它就能把整个互联网给保存下来
多平台、开源、自由软件!可惜开发似乎已经停止了. 有图形化页面,不过命令行模式相当强大!我拿它存了一个网站,相当不错,日志非常详细,有哪些 error 有哪些 warning 都说得很清楚,事后解决问题非常迅速. 如果临时出了状况比如网突然不好了有张图片没下下来,再运行一次又能自动帮你更新!很赞~
关于命令行模式有个教程写得不错,非常详细:https://www.httrack.com/html/fcguide.html
@JackLondon “太旧了”是啥意思?可以详细说说吗?
我昨天遇到的问题是,picture 标签(https://developer.mozilla.org/zh-CN/docs/Web/HTML/Element/picture )里的 source 元素没有下载下来,导致图片全都裂了. 好在 img 里面的 src 属性里的图片下载下来了,于是我写了一个脚本把所有的 source 元素都删掉了.
因为这东西正好满足了我的需求,我就没再查类似的软件了~