Veeam 强化存储库是 Veeam 的本地解决方案,可为 Linux 服务器上的 Veeam Backup & Replication 备份提供可信的不可变性。通过支持通用 Linux 服务器,Veeam 确保客户始终可以选择其硬件,而不会受到供应商限制。Veeam 还允许客户使用其值得信赖的 Linux 发行版(Ubuntu、Red Hat、SUSE),而不是被迫使用“自定义 Veeam Linux”。

强化存储库有助于确保 Veeam 备份的不变性,同时满足 3-2-1 规则,并将强化存储库与其他不可变选项(如对象存储或 WORM 磁带上的对象锁定)相结合。本博文将介绍如何为物理服务器选择和准备环境,该服务器稍后将用作“强化存储库”。未来的博客文章将涵盖诸如准备和规划、保护 Linux 系统以及集成到 Veeam Backup & Replication 等主题。
如果缺乏耐心,请使用带有内部磁盘的(高密度)服务器。这种方法可以线性扩展,因为每个新的 Hardened Repository 节点都会有更多的 CPU、RAM、RAID、网络、磁盘空间和 IO 性能。满机架的高密度服务器可提供约 8 PB 的原始容量。借助 Veeam 原生数据缩减和 XFS 空间节省(块克隆),一个机架中可存储高达 100 PB 的逻辑数据,备份速度高达 420 TiB/h。
如果您的环境较小,请不要担心。从 2 个机架单元、12 个数据磁盘和 2 个用于操作系统的磁盘开始。
网络
网络是确保“强化存储库”有助于实现恢复点目标(RPO,最大可丢失多少数据)和恢复时间目标(RTO,恢复需要多少时间)的关键因素。在“永久增量”备份的世界里,网络有时会被遗忘,因为“永久增量”方法对带宽的要求很低。建议设计“完全恢复”方案。使用自己喜欢的计算工具,根据还原要求估算带宽。
通过不同网速复制 10 TB 数据需要多长时间的几个示例:
1 Gbit/s 22 小时 45 分钟
10 Gbit/s 2 小时 15 分钟
20 Gbit/s 1 小时 8 分钟
40 Gbit/s 34 分钟
100 Gbit/s 不到 14 分钟
100 Gbit/s 是当今客户在存储库服务器中实际应用的最快速度。HPE 在 2021 年通过其 Apollo 4510 服务器表明,单台服务器就能达到这样的速度。

但这不仅仅是带宽。这也与冗余有关。如果只有一根网线连接到交换机基础设施,则意味着单点故障。建议为 Hardened Repository 建立冗余网络连接。根据所具备的网络功能,这可能是具有负载平衡功能的主动/主动链路(如 LACP/802.3ad),也可能是简单的主动/被动方案。
虽然 Linux 可以轻松配置 VLAN 标记,但 KISS 原则要求使用无标记交换端口。这意味着,在 Linux 中可以直接配置 IP 地址,而无需任何 VLAN。目前最小的冗余配置是 2X 10 Gbit/s 连接到两个交换机/一个交换机堆栈(取决于我们的网络环境)。
要接收 Linux 安全更新,需要访问 Linux 发行版的安全更新服务器。

为简单起见,我们允许在防火墙上以 HTTP 方式向外访问互联网,以获取安全更新。我们只允许连接到所选 Linux 发行版的更新服务器,而不是整个 Internet。另一种方法是建立一个首选 Linux 发行版的镜像,从那里获取更新和软件。
寻找合适的服务器供应商和型号
从 Veeam 的角度来看,建议使用带有内部磁盘的服务器作为强化存储库。建议使用内部磁盘,因为这样可以消除攻击者访问存储系统并删除存储端的所有内容的风险。服务器供应商有时有“Veeam 备份服务器”模型。这些服务器模型针对备份性能要求进行了优化,最好遵循供应商的建议。
如果您有首选的 Linux 发行版,那么选择经过该 Linux 发行版认证的模型是有意义的。使用 Linux 时,预先测试的配置可节省大量时间。大品牌通常拥有与 Ubuntu、Red Hat(RHEL)和 SUSE(SLES)等主要 Linux 发行版兼容的服务器。
正如我之前提到的 HPE,Cisco 为 Veeam 的 S3260 和 C240 系列提供了“Cisco 验证设计”。从技术上讲,只要满足以下基本要求,从 Veeam 的角度来看,每家服务器供应商都没有问题:
具有电池供电的回写式缓存(或类似技术)的 RAID 控制器
强烈建议使用具有预测性故障分析的 RAID 控制器
对于许多磁盘(50+),由于 RAID 控制器速度限制(通常上限约为 2GByte/s),多个 RAID 控制器通常是有意义的
操作系统和数据的独立磁盘
强烈建议将 SSD 用于操作系统
冗余电源
具有所需链接速度的冗余网络(见上文)
CPU 速度相对无关紧要,因为 Veeam 默认使用非常快的 LZ4 压缩。服务器供应商提供什么,我们就接受什么。多 CPU 内核有助于并行运行多项任务。建议每个 CPU 内核使用 4 GB 内存,这是最佳实践。如果您决定使用 2X 16 个 CPU 内核,那么 128 GB 内存将是最佳选择。虽然这种类型的大小调整听起来可能“过于简化”,但它在我们的测试和生产环境中多年来一直运行良好。
服务器基本配置
在安装 Linux 操作系统之前,必须配置一些设置。如前所述,操作系统和数据在不同的磁盘上是分开的。准确地说,在不同的 RAID 集上。
对于 Linux 操作系统,使用专用的 RAID 1。100 GB 内存绰绰有余。对于数据磁盘,与 RAID 10 相比,大多数客户都会选择 RAID 6/60,以获得更好的性价比。出于安全考虑,RAID 5/50 或任何其他单奇偶选项都是不允许的。RAID 6/60 必须在“漫游配置”中至少配置一个备用盘。这意味着,备用磁盘可以替换任何故障磁盘并成为生产磁盘。
由于服务器配备了带回写缓存的适当 RAID 控制器,内部磁盘缓存需要配置为“禁用”。建议的 RAID 磁条大小有时由服务器供应商提供。如果没有可用的信息,则 128 或 256 KB 是不错的值。
启用 UEFI 安全引导,以防止加载未签名的 Linux 内核模块。
如何获得有关磁盘损坏的通知?
强化服务器/Linux 系统时的最大挑战之一是如何获取有关故障磁盘的通知。每个现代服务器都有“带外”管理(HPE iLO、Cisco CIMC、Dell iDRAC、Lenovo XCC 等)。它们显示磁盘和 RAID 状态,并可以通过电子邮件通知磁盘出现故障。这种类型的通知的优点是以后不需要在 Linux 上配置任何内容。如果管理界面允许配置多重身份验证,那很好,应该使用。

请记住,多重身份验证并不能防止过去带外管理系统存在的许多安全问题。出于安全原因,客户通常会避免使用它们。如果攻击者成为带外管理的管理员,那么他们可以在不接触操作系统的情况下删除强化存储库的所有内容。一种折衷方案是在管理端口前面放置防火墙,并且只允许传出通信。这将允许在磁盘发生故障时发送电子邮件通知。但是攻击者无法攻击/登录管理界面,因为防火墙会阻止所有传入连接。
该设计可能类似于以下示例:

如果决定完全拔掉带外管理端口,则可以通过运行在 Linux 操作系统上的软件来配置故障磁盘通知。服务器供应商通常会提供一些软件包,用于从操作系统内部查看状态甚至配置 RAID(例如 http://downloads.linux.hpe.com/)。这些工具通常可以直接发送电子邮件,也可以通过脚本进行配置。供应商特定工具的脚本和配置不在本文讨论范围之内。
另一种方法是物理监控或摄像头监控。如果您每天都更换磁带,并且可以实际检查强化存储库服务器的 LED 状态指示灯,那么这也不失为一种变通办法。我还听说有客户安装了指向“强化存储库”服务器的摄像头。然后,客户通过摄像头定期检查磁盘的 LED。
结论
使用 Veeam 将 Veeam 备份存储在不可变/兼容 WORM 的存储设备上非常简单。选择 Server 硬件可能是一个挑战,因为供应商和选项太多了。可以按照以下步骤限制选择并加快决策速度:
- 计算 存储库中所需的磁盘空间
- 选择您首选的(并受 Veeam 支持)的 Linux 发行版(Ubuntu 和 RHEL 是 Veeam 客户中最受欢迎的发行版)
- 检查 Linux 发行版的硬件兼容性列表,查找一些供应商/服务器型号
- 与服务器供应商交谈,以提供符合您要求的解决方案
如果服务器供应商方面没有建议,那么请遵循以下几点:
- 如果您使用 SSD,那么 IOPS 没有问题。如果您使用旋转磁盘,请牢记 IO 限制,而不仅仅是纯磁盘空间。如何计算磁盘可提供的速度没有严格的规则,因为这取决于访问模式(顺序访问与随机访问),保守的计算方法是 RAID 60 中每块磁盘 10 到 50 MByte/s。对于顺序读取,7k NL-SAS 磁盘的速度可达 80 MByte/s,甚至更高(包括所有 RAID 开销)。
- 2X 网卡,链路速度如上计算
- 对于 CPU 和 RAM,最佳实践指南中提供了计算公式。在大多数情况下,只需获得大约两个 CPU(每个 CPU 有 16-24 个内核)和 128 GB 内存,就可以节省时间。对于拥有大约 60 个或更多磁盘的高密度服务器,大多数供应商都会配置 192-256 GB 内存。
保持简单:使用带有内部磁盘的服务器。这种方法可以线性扩展,因为每个新的 Hardened Repository 节点都会有更多的 CPU、RAM、RAID、网络、磁盘空间和 IO 性能。这是一个简单而成熟的设计。