デフォルトのしきい値設定や要件に合致していない設定のまま監視を追加していくと、通常の挙動でもアラートとして検知してしまい、
不必要なアラートが大量に発生するケースがあります。
これを回避するために、見直す必要のある設定項目や、推奨する設定内容を紹介します。
一般設定
アラート期間
通知を行う時間帯をユーザーごと、監視ごとに設定し、アラート通知を稼働している業務時間などに限定します。
設定方法は次の各ページをご確認ください。
緊急性のない監視などは、通知の遅延設定により、トラブルなどの障害ステータスが複数回連続して検知された際に通知するよう設定できます。
監視ステータスごとに指定することができ、重大度に合わせた遅延設定を行えます。
この設定を行うと、トラブルなどの障害ステータスが複数回連続して検知されないと通知は行われませんが、Site24x7画面上には障害ステータスとして記録されます。
ポーリングの計画
直近で行われた複数ポーリングデータをしきい値と照らし合わせることで、厳密なしきい値条件によるアラート設定を行えます。
下記のネットワーク装置のしきい値プロファイルの例では、「直近3回のポーリングで取得された応答時間の平均値が、1000ミリ秒を超過」した場合に通知を行います。
監視の種類ごとに、指定できる監視データ項目が異なります。
各監視の編集画面にある「次の監視に依存」項目で、監視対象に関連した他の監視リソースを選択します。
これにより、依存先の監視がともにダウンした際に、設定した監視のダウンアラートは抑制されます。
メンテナンスなどでサーバーのダウンや再起動を予定している場合は、スケジュールメンテナンスを設定して
その時間帯のアラート通知を抑制するように設定します。
過去のデータに基づいてしきい値を計算し、自動で設定します。
これにより、現在のパフォーマンスに対して適切なしきい値が設定されるため、誤アラートを防止できます。
Web監視 編
ダウンタイムルール
監視に設定してあるロケーションの中から、複数ロケーションで同じ検知が行われた場合に通知を行います。
複数ロケーションからの監視結果を用いて、より信頼性の高いアラートを通知できます。
しきい値プロファイルに、この設定項目が表示されないWeb監視が一部存在します。
サーバー監視 編
サービス、プロセス、ネットワークインターフェース、ディスクのしきい値設定
しきい値プロファイルから各監視リソースのしきい値設定を行うと、
アラートが不要なリソースのパフォーマンス問題を検知してもアラートが通知されるようになります。
各タブの表にある「アクション」列の鉛筆アイコンから、個々のリソースに対してしきい値設定を行うことで、
必要なリソースのみ、監視対象にすることができます。
例として、ネットワークインターフェースのしきい値設定を個別で行いたい場合は、[ネットワーク]タブから行ってください。
[管理]→[サーバー監視]→[設定]ページで、サーバー監視全体の一般設定を行えます。
このページの次の設定項目がアラート通知に関連しており、ユーザー環境や要望に応じて設定することで
アラート通知設定をチューニングできます。
- サーバーハートビートチェックのしきい値を設定してください
エージェントからサーバーに対して死活確認を行い、指定した時間疎通確認ができなかった場合にアラート通知を行います。 - データ収集なしのしきい値設定
データなし(No Data)となって収集できていないパフォーマンスメトリックがあり、その期間が指定した時間を超過した場合にアラート通知を行います。 - サーバー再起動後にアラートする
サーバー再起動時にアラートを行うか指定します。
クラウド監視(AWS) 編
ステータス伝達機能により、複数の子リソース(例:EC2インスタンスのボリューム監視)がダウンした際に
そのアラートを親監視(対象ボリュームが搭載されているEC2インスタンス監視)のアラートとして集約して通知します。
複数の子リソースを監視対象としていて、それらの通知をまとめたい場合に有効です。
ネットワーク監視 編
スタンバイオンプレミスポーラーを導入し、他のオンプレミスポーラーと冗長構成を取ることで、
堅牢な監視体制を取れるとともに、オンプレミスポーラーのダウンに関連するアラートを抑制できます。