OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07)

https://blogs.oracle.com/observability/post/gpu-infrastructure-and-workload-monitoring-with-oci-stack-monitoring

投稿者： Aaron Rimel | Principal Product Manager, Observability and Management

GPUインフラストラクチャとそのワークロードに不可欠な監視とアラーム管理を提供するStack Monitoringの最新リリースをご紹介します。この新機能は、監視UIを構築するのではなく、GenAIプロジェクトに集中できるように、GPUフリートにターンキー監視を提供するように設計されています。豊富なアラーム管理により、大規模にアラームを簡単に設定し、フリート全体で管理できます。

大規模な環境でのGPUアクセラレーテッド・インフラストラクチャの監視

Enterprise Health and Alarms for Host GPUは、インタラクティブな監視UIにより、GPUインフラストラクチャの健全性を可視化します。

例外による監視のために設計され、ホストおよびオープン・アラームの可用性を迅速に評価します。

稼働しているホストの割合を一目で特定し、停止中または報告されていないホストにドリルダウンします。
クラスタ・ネットワーク内のすべてのホストが使用可能かどうかを把握し、ドリルダウンして停止を調査します。
アラームの詳細にドリルダウンして、GPUインフラストラクチャ全体でオープン・アラームをトリアージします。最新のメトリック値は、トリアージの優先順位付けに役立ちます(たとえば、GPUアラームはGPUの現在の温度81°Cを示します)。

GPUフリートを監視する場合、レスポンス、ロード、エラーおよび使用率の4つの主要なパフォーマンス・カテゴリに焦点を当てます。Enterprise Health and Alarms UIは、次の4つのカテゴリに焦点を当て、フリート全体のパフォーマンス・ホットスポットの関連付けを支援するために特別にキュレーションされています。

平均レイテンシが最も高く、ジョブが遅くなるGPUを特定します。
より要求の厳しいジョブに追加できる、利用率の低いGPUを特定します。
ECCエラー数が最も多いGPUを識別します。
フリート全体で高GPU温度と電力使用量を関連付けて、ワークロードの低速化の可能性を特定します。

パフォーマンス・チャートでは、各プロット・ポイントは一意のリソース(ホスト、GPUなど)を表します。プロット・ポイントをクリックすると、時間の経過に伴うパフォーマンスをドリルダウンできます。メトリック・チャートは、現在のメトリック・ストリームでアラームを開くための詳細を提供し、さらに調査するためにリソースのホームページに移動します。

クラスタ・ネットワークのホーム・ページには、ホストとGPUのヘルスおよびアクティビティの概要が表示されます

Enterprise Health and Alarms for Host GPUビューから、クラスタ・ネットワークのホーム・ページにドリルダウンして、クラスタ全体のコンピュート(ホスト)およびGPUのヘルスおよびアクティビティを評価します。

クラスタ・ネットワークのホームページは、GPUアクセラレーテッド・ホストのクラスタ全体でコンピュート・ヘルスおよびオープン・アラームをすばやく識別できるように設計されています。

使用可能なホスト、使用不可ホスト、使用中ホストおよび機能低下ホストの数を確認します。
アラームの詳細にドリルダウンして、クラスタ全体でオープン・アラームを調査します。

パフォーマンス・チャートは、GPUのパフォーマンスと使用率を、高、中、低に自動的に分類します。この分類により、クラスタ・ネットワーク全体のすべてのGPUをすばやく分析できます。

アクティブでないGPUの数を識別します。
大量のメモリーと電力を使用しているホストの数を確認します。
ワークロードに影響を与える可能性のある高温のGPUをシングルアウトします。
クラスタ全体の平均レイテンシを確認します。

クラスタの「トポロジ」ページを使用して、クラスタ・ネットワーク全体の詳細なパフォーマンス・メトリックを一目で確認し、クラスタ・ネットワーク、ネットワーク・ブロック、ローカル・ブロック、ホスト、GPUなど、クラスタ全体を簡単にナビゲートします。

コンピュート・ホーム・ページでは、GPUアクセラレーテッド計算のヘルスおよびパフォーマンスが提供されます

クラスタ・ネットワークのトポロジ・ページから、クラスタ内の任意のホストまたはGPUに移動して、そのホーム・ページに移動します。ホスト・ホーム・ページでは、ホストとそのGPUのヘルスおよびパフォーマンスを確認できます。GPUアクセラレーテッド・コンピュート・ホームページは、GPU固有のメトリック(GPUアクティブ・セッション、GPU ECCエラーなど)を含めるように拡張されています。Stack Monitoringを使用すると、複数のホストおよびGPUメトリックで異常を検出するベースラインをすぐに利用できます。

異常検出では、現在のパフォーマンスが予想範囲外であることを視覚的に識別できます。RDMA送信バイトなどのRDMAメトリックで追加のベースラインを有効にすると、ジョブの実行中に転送されるデータの量が予期せず削除されたかどうかを判断できます。

「GPUパフォーマンス」タブには、アクティビティ、アクティブ・セッション、メモリー使用量、ファン使用率、平均レイテンシ、温度、ECCエラーなど、すべてのGPUのGPUパフォーマンスが要約されます。パフォーマンス・チャートでは、これらのチャートに関連するオープン・アラームが強調表示されます。これにより、全体的な状態が一目でわかるように表示され、個々のGPUホーム・ページにドリルダウンして詳細なトリアージを行うことで一般的な問題をトリアージするためのパフォーマンス相関付けに役立ちます。

待機時間が長いGPUを識別します。
GPUの温度が熱スロットルに近づいているかどうかを評価します。
現在のGPUメモリー消費量が異常かどうかを判断します。
GPUクロック使用率の低下を特定します。

プロセス・セットを使用したワークロード・モニタリング

GPUワークロードの監視は、プロセス・セットを使用して実行できます。プロセス・セットは、GPUワークロードを構成する一意のプロセスを定義することで作成されます。スタック・モニタリングは、作成後、ステータス、CPUおよびメモリー使用率、およびホストで実行されているプロセスの数を監視します。これらのメトリック(プロセス数など)に対してアラームを作成し、ワークロードにワークロードを完了するための十分なプロセスがあることを確認できます。「トポロジ」タブには、ワークロードが実行されているホストが示されます。

モニタリング・テンプレートを使用した大規模なGPUアラームの管理

GPUアクセラレーテッド・フリート全体で個々のアラームを作成すると、時間がかかり、エラーが発生しやすくなります。モニタリング・テンプレートは、GPUアクセラレーテッド・フリート全体のすべてのアラーム・ルールを作成できる単一のUIを提供することで、このプロセスを簡素化します。この単一テンプレートには、ホストおよびGPUにアラーム・ルールを作成するために必要なすべての情報が含まれており、数回のクリックでフリート全体に適用できます。フリートを拡張する場合(ホスト、GPUの追加など)、新しく追加されたホストおよびGPUは、モニタリング・テンプレートのアラーム条件で自動的に適用されます。アラームしきい値の変更は、テンプレートでも実行でき、そのような変更はすべてのホストに適用されます。これらのテンプレートは、アラーム条件の管理に時間を節約し、大規模な環境で一貫性を確保します。

OCI Stack Monitoringで、GPUインフラストラクチャとワークロードの可視性とアラーム管理を実現します。

Get started today!

リソース:

このブログを検索

Oracle Cloud Infrastructure Blog(翻訳)

OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07)

OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07)

コメント

コメントを投稿

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle GoldenGate 23aiでMicrosoft Fabricでのオープン・ミラーリングがサポートされるようになりました (2024/11/19)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)