OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07)
OCI Stack MonitoringによるGPUインフラストラクチャとワークロードの監視 (2025/03/07) https://blogs.oracle.com/observability/post/gpu-infrastructure-and-workload-monitoring-with-oci-stack-monitoring 投稿者: Aaron Rimel | Principal Product Manager, Observability and Management GPUインフラストラクチャとそのワークロードに不可欠な監視とアラーム管理を提供する Stack Monitoring の最新リリースをご紹介します。この新機能は、監視UIを構築するのではなく、GenAIプロジェクトに集中できるように、GPUフリートにターンキー監視を提供するように設計されています。豊富なアラーム管理により、大規模にアラームを簡単に設定し、フリート全体で管理できます。 大規模な環境でのGPUアクセラレーテッド・インフラストラクチャの監視 Enterprise Health and Alarms for Host GPUは、インタラクティブな監視UIにより、GPUインフラストラクチャの健全性を可視化します。 例外による監視のために設計され、ホストおよびオープン・アラームの可用性を迅速に評価します。 稼働しているホストの割合を一目で特定し、停止中または報告されていないホストにドリルダウンします。 クラスタ・ネットワーク内のすべてのホストが使用可能かどうかを把握し、ドリルダウンして停止を調査します。 アラームの詳細にドリルダウンして、GPUインフラストラクチャ全体でオープン・アラームをトリアージします。最新のメトリック値は、トリアージの優先順位付けに役立ちます(たとえば、GPUアラームはGPUの現在の温度81°Cを示します)。 GPUフリートを監視する場合、レスポンス、ロード、エラーおよび使用率の4つの主要なパフォーマンス・カテゴリに焦点を当てます。Enterprise Health and Alarms UIは、次の4つのカテゴリに焦点を当て、フリート全体のパフォーマンス・ホットスポットの関連付けを支援するために特別にキュレーションされています。 平均レイテンシが最...