Veeam Softwareの中川です。パートナーやエンドユーザーを対象に、製品トレーニングを提供しています。Veeam Data PlatformのAdvancedエディション以上で提供される監視製品の「Veeam ONE」について、計12回にわたりご紹介します。
2回目:Veeam ONEのインストール, Veeam ONE Clientアクセス方法, 設定メニュー
3回目:Veeam ONE Client – データ保護環境の監視および考察
4回目:Veeam ONE Client – ランサムウェア対策のための事前定義アラーム
5回目:Veeam ONE Client – 悪意ある攻撃者からの設定変更を追跡するアラーム
6回目:Veeam ONE Client – 仮想環境運用時のスナップショットも監視は必須
7回目:Veeam ONE Client – インテリジェント診断にアシストしてもらおう
8回目:Veeam ONE Web Client – アクセス方法, 設定メニュー, ダッシュボードの活用
9回目:Veeam ONE Web Client – スケジュールしたレポートを報告書に流用
10回目:Veeam ONE Web Client – 悪意ある攻撃者からの設定変更を追跡するレポート
11回目:Veeam ONE Web Client – Veeamで実装する暗号化の設定変更追跡レポート
12回目:Veeam ONE Web Client – ジョブを一覧するカレンダー、Veeam Backup & Replication v12で強化されたセキュリティ機能
6回目は「Veeam ONE Client – 仮想環境運用時のスナップショットも監視は必須」です。
データ保護環境の監視からトピックを変え、仮想環境の2つの監視アラームを例に、各アラートの内容やどのような解決策が提示されるのかを確認します。
仮想環境の監視
仮想環境の監視は、Veeam ONE Client画面の左下メニューから、「Virtual Infrastructure (緑色点線枠内)」を選択します。こちらのブログではVMware vSphere環境を監視対象とします。
「Summary」タブに「VRO1」仮想マシンのアラートが表示されています。今回はこのアラートを読み解きます。「仮想マシン名」がリンク文字列になっていますから、リンクをクリックし、アラートの詳細を確認します。
アラートの詳細確認
「Latest snapshot age」と「Latest snapshot size」アラームの内容を確認します。
Latest snapshot age – Warning
「Latest snapshot age」アラートの内容を要約すると、「スナップショット維持期間がしきい値の2日間を超えている」という情報が述べられ、解決策として「スナップショットの削除、またはアラームの無効/アラームのしきい値は変更可能である」と提示されています。このアラームはスナップショットの維持期間が48時間を超えると警告が通知されるルール設定です。
Latest snapshot size – Error
「Latest snapshot size」アラームは、エラーアラートの(日本語に訳した)詳細内容を確認します。
< Description >
VMスナップショット (VRO01_vm-1001_1)のサイズが定義されたしきい値(20.0%)を超えています。現在のサイズは28.50GBです。(※警告のしきい値は10.0%です。)
< Knowledge >
VMのスナップショットが長時間維持され、スナップショットのファイルサイズの設定しきい値を超えました。
スナップショットは、特定の時点におけるVMの状態とデータを保存するものです。一般的に実行中のVMのバックアップやメンテナンス作業(パッチ適用など)に使用されます。
< Cause >
VMは、スナップショットチェーンを作成・管理するためのいくつかの操作を提供します。これらの操作により、スナップショットを作成したり、チェーン内の任意のスナップショット(取得した時点)に戻したり、スナップショットを削除したりできます。
VMの状態を任意の時点として保存し、スナップショットツリーを作成し、必要に応じて後でリストアする(取得した時点に戻す)ことができます。スナップショットが不要になった場合、ユーザーがスナップショットを削除し忘れることはよくあります。
さらに、サードパーティのソフトウェア(バックアップソフトウェアなど)は、オンラインバックアップの目的でスナップショットを自動的に作成することができます。このようなソフトウェアは、断続的なネットワークまたはvCenterサーバ通信の問題により、スナップショットを自動的に削除できず、スナップショットが残ってしまうことがあります。
スナップショットを維持している場合、ディスクの変更はすべて子ディスク(差分ディスク)に保存されます。VMディスクへの変更が増えるほど、スナップショットのファイルは大きくなります。ただし、スナップショットファイルのサイズが元のVMDKファイルのサイズを超えることはありません。
< Resolution >
スナップショットマネージャで実行中のスナップショットを確認し、必要に応じて削除してください。
さらに、スナップショットの管理に関するVMwareのKB記事を確認してください。
なぜ差分ディスクのファイルサイズが大きくなると問題なのでしょうか?
Veeam ONEのアラームでは、スナップショットの差分ディスクサイズが大きくなることによる、二次影響までは触れていません。
私は2015年までVMwareの認定インストラクターでした。認定コース内で、受講者に差分ディスクサイズが大きくなることによって起きる影響について説明していましたから、こちらのブログでも共有したいと思います。
図4の緑色枠内のファイルがスナップショットの差分ディスクです。差分ディスクのファイルサイズは一般的には元の仮想ディスクの20%程度に見積もっているかと思います。エラーアラートのしきい値も20%です。
スナップショットによる差分ディスクサイズも考慮し、最終的にデータストアのサイズを見積もっているかと思います。
差分ディスクサイズが大きくなることによる影響は、スワップファイル(図4赤色枠内のvswpファイル)作成時に発生します。
スワップファイルは仮想マシンのパワーオン時に作成されます。パワーオフすると削除されます。
スワップファイルのサイズは仮想マシンで構成したメモリサイズと同サイズです。データストアでスワップファイルを作成するための空き容量が不足すると、仮想マシンのパワーオンができないという事象を起こします。
その際の影響範囲は、容量不足のデータストアに存在する、停止中の仮想マシンすべてです。停止中の仮想マシン数は多くないと思いますが、影響範囲は広いですよね。
スナップショットの削除を忘れたことによって、他の仮想マシンに影響を生じるとは!と思いますよね。
また差分ディスクのサイズが大きくなると、元の仮想ディスクとのマージ(統合)に失敗する可能性もあります。
そのため、仮想マシンのスナップショットは、一時的な利用におすすめとコース内で紹介していました。
スナップショットハンター
エラーアラート内のCauseに、「このようなソフトウェアは、断続的なネットワークまたはvCenterサーバ通信の問題により、スナップショットを自動的に削除できず、スナップショットが残ってしまうことがあります。」という記述がありました。
この事象を避けるために、Veeamは「スナップショットハンター」を実装しています。スナップショットハンターはバックアップ/レプリケーションジョブセッション後に残る可能性のある孤立したスナップショットの検出・削除を行い、スナップショットの問題に対処します。
Veeamのユーザーガイドの「スナップショットハンター」には、「データストアの大きな領域を占有したり、VMのパフォーマンスに影響を及ぼしたりすることがあります。データストアに空き領域がなくなると、本番VMの停止が引き起こされることもあります。」と先にお伝えした二次影響に関する記述もあります。
スナップショットハンターは、ユーザーが手動で作成したスナップショットには影響しません。
まとめ
仮想マシンのスナップショットは、設定変更やソフトウェアのインストール/アップデート時に役立つ機能です。スナップショットの作成によって任意の時点に戻すことができるため安心して検証することができます。
便利さを享受すると同時に、スナップショットは監視するべき対象でもあります。
今回例にしたVRO1のアラームはまさにスナップショットの削除し忘れが原因でした。私自身がスナップショットを作成しているのなら気を付けることもできますが、他のメンバーによる削除忘れに対応するのは難しいですね。
今回のブログでは監視アラームを取り上げましたが、レポートの「VM Configuration Assessment」から、既存のスナップショットを維持するVMの確認や、空き領域10%未満のデータストアの情報を入手することもできます。予期しないトラブルを避けるためにも、Veeam ONEのアラームやレポートで仮想環境の監視もご検討いただければ幸いです。
◆参考情報 ※Webブラウザの日本語翻訳機能をご利用ください。
・VMware vSphere Monitoring
https://helpcenter.veeam.com/docs/one/monitor/vsphere_monitoring.html?ver=120
・Hyper-V Monitoring
https://helpcenter.veeam.com/docs/one/monitor/hyperv_monitoring.html?ver=120
Snapshot Hunter
https://helpcenter.veeam.com/docs/backup/vsphere/snapshot_hunter.html?ver=120
・VM Configuration Assessment
https://helpcenter.veeam.com/docs/one/reporter/vm_configuration_assessment.html?ver=120
・Interaction with vSphere ※ジョブ実行時のスナップショット操作の影響について述べられています。