Stack Monitoringによるホスト監視 (2022/09/30)

Stack Monitoringによるホスト監視 (2022/09/30)

https://blogs.oracle.com/observability/post/host-observability-with-stack-monitoring

投稿者:Aaron Rimel | Principal Product Manager, Observability and Management


OCI(Oracle Cloud Infrastructure)のCompute Instanceとオンプレミスのホストサーバーの両方をサポートするStack Monitoringによるホスト監視の一般提供を開始します。 Stack Monitoringは、DevOpsエンジニアに、ファイルシステムのディスク容量不足やCPU使用率の高さなどの問題を迅速に警告し、特定するためのツールを提供します。 運用チームは、Enterprise Summaryビューを利用して、OCI Computeとオンプレミスホスト全体の可用性ステータスを確認することができます。 Stack Monitoring は、Oracle Database や E-Business Suite などのアプリケーションおよびアプリケーションスタック技術の検出と監視に重点を置いています。 ホスト監視を追加したStack Monitoringは、アプリケーションスタック全体の健全性をより詳細に可視化し、アプリケーションの障害につながる可能性のあるホストリソースの枯渇などの問題をプロアクティブに特定することができます。



ホスト監視を始める


フルモニタリングでは、ホストの多次元メトリクスの収集が可能です。 管理エージェントの設定後、OCI Command Line Interface (CLI) discover-job createコマンドを実行して、OCI Computeリソースまたはオンプレミスホストを「host」タイプの新しいリソースとして検出します。 検出ジョブが完了すると、そのホストの完全な監視が開始されます。


ホスト上でOracle DatabaseやWebLogic Serverなどが動作している場合は、リソース検出ワークフローを使用して、次にこれらを検出します。 これらのリソースが検出されたら、CLI resource associateコマンドを実行して、リソースとそのホストの間の関連付けを作成します。



ホストのホームページから重要なデータに素早くアクセス可能


Stack Monitoringは、主要なパフォーマンス指標に素早くアクセスできる、特別にキュレートされたホームページを提供します。 このホームページには、ホストの健全性とステータスに関する詳細が含まれています。 すぐに使用できるチャートを使用して、高いメモリ使用率などのパフォーマンスの問題をすばやく特定します。 テーブルを使用して、すべてのマウントポイントにおけるファイルシステムの使用率を簡単に確認できます。 開いているアラームを確認し、リンクをクリックすると、新しいタブに詳細なアラームが表示されます。 プロパティから、OS バージョン、重要度別の未解決アラームの概要、ホストの最後のステータス変更の日時などの重要な情報にすばやくアクセスできます。

図 1: ホームページはホストの状態と性能の概要を提供



ホームページのチャートでホストの全体的な健全性を確認


Stack Monitoring のチャートは、ホストの重要な KPI (Key Performance Indicator) に素早くアクセスできるように、慎重に選択され整理されています。 ホストがCPU、メモリ、ファイルシステムを使い果たしていないかどうか、すばやく評価できます。

図 2: チャートにより主要なパフォーマンス指標に素早くアクセス可能


Linuxのメモリを監視する場合、スワップ使用率を監視することが不可欠です。 物理メモリはスワップよりはるかに高速であるため、スワップが高いと、メモリの圧迫に起因して、パフォーマンスが低下する可能性があります。 Stack Monitoringのチャートを利用して、現在のスワップ使用率を表示したり、過去のパフォーマンスを確認するために一定期間の履歴を振り返ることができます。 スワップ使用量が徐々に増加している場合、freeなどのコマンドでは困難ですが、チャートで簡単に確認することができます。

図3:スワップ使用率を時系列で簡単に確認



ホームページのテーブルでメトリックスの全次元を可視化


Stack Monitoring Tablesは、特定のメトリックのすべてのディメンションと値を表示します。 この情報は、ホストにログオンすることなく、ホスト上のすべてのファイルシステムで使用されるファイルシステム使用量(GB)を確認する際に役立ちます。 ディスク アクティビティは、ホストがどの程度ビジー状態であるかの指標となります。 ディスク アクティビティ サマリーは、ホスト上のすべてのディスクの 1 秒あたりの読み取り、書き込み、および合計操作の数を報告します。

図 4:表には、メトリクスのすべてのディメンションと値が表示される



ホスト上で何が実行されているかを理解する


[関連リソース]ページを使用して、Oracle Database、WebLogic Server、またはコンカレント・マネージャーなどのリソースがホスト上で実行されているかどうかを簡単に特定できます。 この可視性は、ホスト上で何が実行されているかの詳細を提供することにより、パフォーマンスの問題をトリアージする際に重要です。 さらに、「関連リソース」ページでは、アプリケーション・スタックの上下に簡単に移動することができます。

図 6: ホスト上で動作しているリソースの確認


このページでリソースの名前をクリックすると、そのリソースのホームページに移動します。 例えば、ホスト上の高いメモリ使用量を表示する場合、このページはそのホストが WebLogic Server によって使用されていることを特定します。このリンクを使用して、WebLogic Server のホームページにすばやく移動し、メモリ使用量などのメトリクスを調査して、潜在的な問題の特定に役立てることができます。 逆に、JVMの動作が遅い場合は、WebLogic Serverの「関連リソース」ページを活用して、WebLogic Serverがどのホストで動作しているかを特定します。 その後、簡単にホームページに移動して、ホストの主要なパフォーマンス指標を確認します。



アラームを使用してメトリクスを実用化


ホストの監視は、単にRAMの使用量に閾値を設定するよりも複雑です。 そのため、モニタリングは単一のメトリクス次元以上の測定が可能でなければなりません。 Stack Monitoringは、ホストが昇格するとすぐに収集される、豊富な多次元メトリクスを多数提供します。 これらの多次元メトリクスにより、1つのメトリクスがそのデータを分類し、各次元で個別のアラームを作成することができます。 たとえば、ファイルシステム利用率のような単一のメトリックでは、成長が期待できないファイルシステムを監視する場合、警告しきい値を90%、重要しきい値を95%に設定するのが賢明でしょう。 しかし、ルートファイルシステムの重要性は、70%の警告しきい値と85%の臨界しきい値で保証されるかもしれません。 これらのメトリックの次元は、メトリックデータをより詳細に確認し、ビジネス要件を満たす閾値を設定する柔軟性を提供します。 Stack Monitoringが提供する他のメトリックの例としては、CPU Utilization、Disk Activity、Network Activityがあります。

図 7: クリティカルファイルシステムアラームの通知


 


ホストモニタリングに加え、Stack Monitoringはアプリケーションスタックに必要なトップダウンの可視性を提供します。 Stack Monitoring を使用すると、ホストからその上で実行されている EBS アプリケー ション、およびその間にあるすべてのものを監視することができます。 多次元的なホストメトリクスにより、アプリケーションが期待通りに動作していることに安心感を得ることができます。 Stack Monitoringはすぐに精選されたチャートとテーブルを提供するので、運用チームはモニタリングの構築ではなく、ビジネスに不可欠なアプリケーションに集中することができます。



今日から始める

Getting Started


 

リソース

Command Line Interface (CLI)

Updating Application Topology

Resource Discovery

Host Metric Reference


最近のブログ

OCI Stack Monitoring

Support for Multitenant Databases


コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)