数据备份碎碎念

Google Photos

[零]

从本科读计算机软件开始,我的人生就和数据分不开了。

[壹: 那个容易丢的 U 盘]

一开始,就和所有早期的 PC 用户一样。没有数据的概念,只有电脑 C 盘 D 盘 E 盘… 之分。

后来,要去学校机房上机,买了人生的第 1-n 个 U盘,带着课程资料在宿舍和教学楼之间穿梭。
那时候的 U 盘只有几个 G,同学间最大的也才 16G。

U 盘总是很容易丢,每次上完机从机房出来,门口失物招领的纸盒子里,堆满了形形色色 U 盘。
当然,我也贡献了好几个,有的在那个纸盒子里,有的在别处再也没有回来。
后来养成了习惯,定期会把 U 盘的内容,拷贝到电脑里作一个备份。

也就是从那时候开始,模模糊糊有了一些数据的概念,虽然是:“U 盘容易丢,我存的内容不知道什么时候就会离我而去。”

[贰: HDD 和云盘]
也还是在本科的时候,买了自己的第一个大容量移动硬盘,1T,当时存储的价格还是挺贵的。

买的时候,是在大二下学期了。
至于动机,和所有男大学生一样,当然是为了给高清影音(小姐姐,不是!)一个家。
那时候还是 BT 盛行的时候,P2P 协议也还在网上热度很高,也被全民使用着。

因此上,硬盘里主要的存储内容大概如下:

  • 1080P 电影
  • 无损音乐
  • 一些生活照片
  • 一些软件安装包(Visual Studio 和用 U 盘装系统的 Windows)
  • 一些课程资料

也是在那两年,百度推出了面向 C 端的百度云盘。
那时候有一个ipad mini,再加上百度云软件,是真的很好用了。自动备份,在线云资料下载。
(可惜后来百度云的隐私和下载限速问题,逐渐弃用了)。

[叁: 云厂商]

或许是命运石之门的选择。本科的自己从未想过,毕业前的最后一份实习,是在某大厂的数据部门,后来毕业后的第一家公司,是一家云厂商公司。

在新人入职培训时,培训很多云存储的东西。依稀记得,培训成果测试的时候,有一个题目是:说说三副本备份。

一开始工作的几年,自己的数据资产主要是一些工作笔记。那时候 “印象笔记” 还是行业标杆。
以及智能手机的普及,产生了一些照片和视频。

这时候,开始有了数据的概念。个人数据资产也转变为知识性文档和生活照片。
但备份方式,依然是 HHD 为主的冷备份。或许,甚至不能叫做备份,只是把数据归类然后存了起来。

[肆: 数据平台]

再往后的一两份工作,是在数据平台做数据管理相关的开发工作。
因为要独立负责底层的一部分元数据管理,这期间做了不少细致的设计和思考。

也是这个阶段,对数据有了比较深刻性的认知(数据-信息-知识-智慧),开始思考数据的价值。
这一部分,会在另一篇博文里阐述。

我对数据的热情,也从这个阶段开始,逐渐转变为对数据的热爱。

[伍: 321]

大概是在去年年底的时候,我终于下定决心要做一个适用于个人的数据备份方案。
采用 3-2-1 原则:

  • 三个备份
  • 两种介质
  • 一处异地

[陆: 资产分类与冷热度]

整理了当下阶段的数据资产清单,如下:

  1. 个人笔记/文稿/证件(相当重要)
  2. 生活记录的照片/视频(相当重要)
  3. 一些平台账号和订阅的 key-value(相当重要,但很特殊)
  4. 无损音乐和电影(美丽但不重要)

我的备份关注点,在 1 和 2 上。

第一点,其实会有很多纸质书信,证书,合同等等,这些都是很重要的数据资产。
这些都要扫描成电子版,进而备份。

另外,备份需要注意冷热度。

  • 冷数据:不经常访问,但是需要长期保存的数据。比如,照片,视频,文档等等。
  • 热数据:经常访问,需要备份的数据。

[柒: 照片与视频的备份]

Google 相册 + 2 块 HDD。
每半年,进行一次手动备份。

一开始想过家庭 NAS 和一些其他云方案,但是不容易实现一处异地,以及折腾成本过高,便放弃了。

2 块 HDD是一直在用的方案。
Google 相册,是这个方案的核心。

  • 我刚好有一个 Google Pixel 1,可以免费无限存储照片和视频到 Google 相册。
  • Google 相册的智能管理功能+多设备云同步,可以实现热数据的特征,随时多设备读取。
  • Google 本身在云上,本身实现 321 原则,唯一的风险是账号风险,以及这个服务的生命周期。

[捌: 笔记与文稿的备份]

阿里云盘 + 2 块 HDD。
也是每半年一个备份周期,按时间线备份。

阿里云,其实会有担心隐私的问题,所以,采用先加密,再上传。

[玖: 写在最后]

这个方案,其实是一个很简单的方案。
它不够自动化,也不够智能化。

作为数据备份这件事,对于一个人,其实是一个“必要的浪费”。
即,你做了不会带来什么收益,但你不做,可能要承担巨大的风险(比如银行的安全系统)。

所以,对于这类事情,我一直采用“简单即可”的原则。
方案简单,人力+心智成本足够低,但又能达到效果。

[拾: 番外]

这里其实还想讨论一下,账号与认证体系。

账号是指的在各种网络平台登记的账号。
账号的认证体系,是指的各种账号的认证方式,即用其他的信息去注册这个账号。

所以,我把账号信息分为原始信息,和衍生信息。

原始信息

一类:

  • 社会体系中的身份 ID,比如身份证或者护照;
  • 生物特征:比如指纹、人脸、虹膜等;

二类:

  • 实名认真的手机号

三类:

  • 个人的邮箱
  • 用于判断是否为某个人的个性化问答信息;

衍生信息

  • 使用原始信息注册的账号;
  • 平台的二次验证,以及 backup code;
  • 和金融相关的验证信息;

这里,原始信息,建议纸质打印备份+多处(>= 2)的网络备份;
衍生信息中的 backup code 和金融的,也建议纸质打印备份+多处(>= 2)的网络备份;