OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07)

OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07)

https://blogs.oracle.com/observability/post/gpu-infrastructure-and-workload-monitoring-with-oci-stack-monitoring

投稿者: Aaron Rimel | Principal Product Manager, Observability and Management


GPUインフラストラクチャとそのワークロードに不可欠な監視とアラーム管理を提供するStack Monitoringの最新リリースをご紹介します。この新機能は、監視UIを構築するのではなく、GenAIプロジェクトに集中できるように、GPUフリートにターンキー監視を提供するように設計されています。豊富なアラーム管理により、大規模にアラームを簡単に設定し、フリート全体で管理できます。



大規模な環境でのGPUアクセラレーテッド・インフラストラクチャの監視


Enterprise Health and Alarms for Host GPUは、インタラクティブな監視UIにより、GPUインフラストラクチャの健全性を可視化します。


例外による監視のために設計され、ホストおよびオープン・アラームの可用性を迅速に評価します。


  • 稼働しているホストの割合を一目で特定し、停止中または報告されていないホストにドリルダウンします。
  • クラスタ・ネットワーク内のすべてのホストが使用可能かどうかを把握し、ドリルダウンして停止を調査します。
  • アラームの詳細にドリルダウンして、GPUインフラストラクチャ全体でオープン・アラームをトリアージします。最新のメトリック値は、トリアージの優先順位付けに役立ちます(たとえば、GPUアラームはGPUの現在の温度81°Cを示します)。


GPUフリートを監視する場合、レスポンス、ロード、エラーおよび使用率の4つの主要なパフォーマンス・カテゴリに焦点を当てます。Enterprise Health and Alarms UIは、次の4つのカテゴリに焦点を当て、フリート全体のパフォーマンス・ホットスポットの関連付けを支援するために特別にキュレーションされています。


  • 平均レイテンシが最も高く、ジョブが遅くなるGPUを特定します。
  • より要求の厳しいジョブに追加できる、利用率の低いGPUを特定します。
  • ECCエラー数が最も多いGPUを識別します。
  • フリート全体で高GPU温度と電力使用量を関連付けて、ワークロードの低速化の可能性を特定します。


パフォーマンス・チャートでは、各プロット・ポイントは一意のリソース(ホスト、GPUなど)を表します。プロット・ポイントをクリックすると、時間の経過に伴うパフォーマンスをドリルダウンできます。メトリック・チャートは、現在のメトリック・ストリームでアラームを開くための詳細を提供し、さらに調査するためにリソースのホームページに移動します。




クラスタ・ネットワークのホーム・ページには、ホストとGPUのヘルスおよびアクティビティの概要が表示されます


Enterprise Health and Alarms for Host GPUビューから、クラスタ・ネットワークのホーム・ページにドリルダウンして、クラスタ全体のコンピュート(ホスト)およびGPUのヘルスおよびアクティビティを評価します。


クラスタ・ネットワークのホームページは、GPUアクセラレーテッド・ホストのクラスタ全体でコンピュート・ヘルスおよびオープン・アラームをすばやく識別できるように設計されています。


  • 使用可能なホスト、使用不可ホスト、使用中ホストおよび機能低下ホストの数を確認します。
  • アラームの詳細にドリルダウンして、クラスタ全体でオープン・アラームを調査します。


パフォーマンス・チャートは、GPUのパフォーマンスと使用率を、高、中、低に自動的に分類します。この分類により、クラスタ・ネットワーク全体のすべてのGPUをすばやく分析できます。


  • アクティブでないGPUの数を識別します。
  • 大量のメモリーと電力を使用しているホストの数を確認します。
  • ワークロードに影響を与える可能性のある高温のGPUをシングルアウトします。
  • クラスタ全体の平均レイテンシを確認します。


クラスタの「トポロジ」ページを使用して、クラスタ・ネットワーク全体の詳細なパフォーマンス・メトリックを一目で確認し、クラスタ・ネットワーク、ネットワーク・ブロック、ローカル・ブロック、ホスト、GPUなど、クラスタ全体を簡単にナビゲートします。




コンピュート・ホーム・ページでは、GPUアクセラレーテッド計算のヘルスおよびパフォーマンスが提供されます


クラスタ・ネットワークのトポロジ・ページから、クラスタ内の任意のホストまたはGPUに移動して、そのホーム・ページに移動します。ホスト・ホーム・ページでは、ホストとそのGPUのヘルスおよびパフォーマンスを確認できます。GPUアクセラレーテッド・コンピュート・ホームページは、GPU固有のメトリック(GPUアクティブ・セッション、GPU ECCエラーなど)を含めるように拡張されています。Stack Monitoringを使用すると、複数のホストおよびGPUメトリックで異常を検出するベースラインをすぐに利用できます。


異常検出では、現在のパフォーマンスが予想範囲外であることを視覚的に識別できます。RDMA送信バイトなどのRDMAメトリックで追加のベースラインを有効にすると、ジョブの実行中に転送されるデータの量が予期せず削除されたかどうかを判断できます。


「GPUパフォーマンス」タブには、アクティビティ、アクティブ・セッション、メモリー使用量、ファン使用率、平均レイテンシ、温度、ECCエラーなど、すべてのGPUのGPUパフォーマンスが要約されます。パフォーマンス・チャートでは、これらのチャートに関連するオープン・アラームが強調表示されます。これにより、全体的な状態が一目でわかるように表示され、個々のGPUホーム・ページにドリルダウンして詳細なトリアージを行うことで一般的な問題をトリアージするためのパフォーマンス相関付けに役立ちます。


  • 待機時間が長いGPUを識別します。
  • GPUの温度が熱スロットルに近づいているかどうかを評価します。
  • 現在のGPUメモリー消費量が異常かどうかを判断します。
  • GPUクロック使用率の低下を特定します。




プロセス・セットを使用したワークロード・モニタリング


GPUワークロードの監視は、プロセス・セットを使用して実行できます。プロセス・セットは、GPUワークロードを構成する一意のプロセスを定義することで作成されます。スタック・モニタリングは、作成後、ステータス、CPUおよびメモリー使用率、およびホストで実行されているプロセスの数を監視します。これらのメトリック(プロセス数など)に対してアラームを作成し、ワークロードにワークロードを完了するための十分なプロセスがあることを確認できます。「トポロジ」タブには、ワークロードが実行されているホストが示されます。




モニタリング・テンプレートを使用した大規模なGPUアラームの管理


GPUアクセラレーテッド・フリート全体で個々のアラームを作成すると、時間がかかり、エラーが発生しやすくなります。モニタリング・テンプレートは、GPUアクセラレーテッド・フリート全体のすべてのアラーム・ルールを作成できる単一のUIを提供することで、このプロセスを簡素化します。この単一テンプレートには、ホストおよびGPUにアラーム・ルールを作成するために必要なすべての情報が含まれており、数回のクリックでフリート全体に適用できます。フリートを拡張する場合(ホスト、GPUの追加など)、新しく追加されたホストおよびGPUは、モニタリング・テンプレートのアラーム条件で自動的に適用されます。アラームしきい値の変更は、テンプレートでも実行でき、そのような変更はすべてのホストに適用されます。これらのテンプレートは、アラーム条件の管理に時間を節約し、大規模な環境で一貫性を確保します。


OCI Stack Monitoringで、GPUインフラストラクチャとワークロードの可視性とアラーム管理を実現します。


Get started today!



リソース:

コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle GoldenGate 23aiでMicrosoft Fabricでのオープン・ミラーリングがサポートされるようになりました (2024/11/19)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)