OCI上のNVIDIA GH200スーパーチップのベンチマーク結果 (2024/08/28)

OCI上のNVIDIA GH200スーパーチップのベンチマーク結果 (2024/08/28)

https://blogs.oracle.com/cloud-infrastructure/post/benchmark-results-nvidia-gh200-superchip-oci

投稿者:Sanjay Basu PhD | Senior Director - Gen AI/GPU Cloud Engineering

Seshadri Dehalisan | Distinguished Cloud Architect

Ruzhu Chen | Master Principal Cloud Architect, Healthcare & Life Sciences


ベンチマークは、ハードウェアの相対的な機能とパフォーマンスを評価する手段です。機械学習(ML)およびハイパフォーマンス・コンピューティング(HPC)では、コンピュート・インフラストラクチャでワークロードを実行する効率性を理解するためにベンチマークが不可欠です。このベンチマークでは、Oracle Cloud Infrastructure(OCI)上で動作するNVIDIA GH200 Grace Hopper Superchipのパワーをご紹介します。最新のGPU革命にまだ慣れていない人にはまったく曖昧ですが、このブログ記事では、コンピューター・サイエンスの観点から何が起こっているのか、そして私たちの視点から何が起こっているのかを、OCIでレイフォークと意思決定者に説明しています。



NVIDIA GH200システム


NVIDIA GH200 Superchipは、加速コンピューティングと生成AIの新しい時代向けに構築されています。これは、NVIDIA GraceTM CPUの汎用性を備えたNVIDIA Hopper GPUの画期的なパフォーマンスをまとめた最初のアーキテクチャであり、高帯域幅とメモリ一貫性のあるNVIDIA NVLink Chip-2-Chip(C2C)®インターコネクトで単一のSuperchipに接続されています。現在、NVIDIA GH200は、CPU、GPUまたはメモリー集約型アプリケーション全体で最高のパフォーマンスを提供します。これらのシステムは、1つのCPU:1 GPUノードで簡単に導入およびスケールアウトでき、HPC、エンタープライズおよびクラウドの管理とスケジュールが非常に簡単です。これらのシステムは、多様なワークロードに対して優れたパフォーマンスと総所有コスト(TCO)を提供し、データセンターの利用率と電力効率を最大化します。




AI推論のGH200ベンチマークの背景


このプロセスは、MLCommonsのフレームワークであるMLPerf Inference v4.0を使用して、8-NVIDIA H100 GPUサーバーと単一のGH200スーパーチップという2つのハードウェア設定でベンチマークを構成しました。Oracleのベンチマークは、ワークロードごとにNVIDIA独自のパフォーマンス数値に厳密に適合しており、一貫性を示しています。


また、GH200でResNet50モデルをNVIDIA Data Loading Library (DALI)で実行しました。Residual Network 50(ResNet50)は、一般的なコンピュータビジョンタスクのための一般的な画像分類モデルと考えられる50層畳み込みニューラルネットワークです。データの拡張を含むデータ・ロード・プロセスを高速化するライブラリの機能により、GH200が大規模なデータセットと複雑なニューラル・ネットワーク・モデルを使用してワークフローを最適化する方法が示されました。



OCI上のNVIDIA H100 80GおよびNVIDIA GH200 96G全体で、イメージ分類、オブジェクト検出、医療イメージング、音声からテキスト、自然言語処理、大規模な言語モデルおよびテキストからイメージへの生成のベンチマークを比較するチャート。どちらも、各ワークロードにわたって強力なパフォーマンスを提供します。



MNISTおよびNVIDIA TensorRT-LLM


また、MNISTデータセットをNVIDIA GH200 Superchipのパフォーマンス・ベンチマークで使用しました。MNISTは、手書きの数字(0-9)で構成される標準のMLデータセットで、様々な画像処理システムのトレーニングとテストに広く使用されています。NVIDIA TensorRTを使用して作成された特定の推論ネットワークと、高性能のディープラーニング推論ライブラリを開発しました。このネットワークをNVIDIA GH200 Superchipに最適化しました。この設定は、MLアプリケーションの最大効率で推論を提供するために、NVIDIA GH200の一般的なMLワークロードを表します。NVIDIA GH200は毎秒約29,253個のイメージを処理し、NVIDIA H100は平均1 GPUで、毎秒約19,200個のイメージを変換でき、このスピードアップを担当するNVIDIA NVLink-C2Cのメリットを強調しました。



NVIDIA GH200 Grace Hopper SuperchipおよびNVIDIA H100 Tensor Core GPU (GPUごとに正規化)で1秒当たりに処理されたイメージを比較する棒グラフ



Oracleカスタム・ワークロードを使用した各種精密ベンチマーク


棒グラフには、様々な精度のモード(FP8、INT8およびFP32)のテスト結果もあり、これはMLモデルの現在のトレーニングおよび推論の重要な側面を表します。さらに、NVIDIA GH200のパフォーマンスは、NVIDIAベンチマークの    同じ精度レベルを満たすことができ、多様な精度要件を備えた高計算リソース利用のMLモデルに最適なソリューションであることが、当社のテスト結果によって証明されています。





FP8、INT8およびFP32のGPUおよびCPUストリーム・パフォーマンス


さらに、Oracleは、非常に基本的な線形代数演算と高速フーリエ変換(FFT)をNVIDIA GH200で実行しました。これらのテストは、GPUの生の計算能力の良好なウィンドウを提供し、一般的な基本的な科学およびエンジニアリング数学操作の実行における効率性を提供します。


たとえば、OracleのNVIDIA GH200 SuperchipのHPCベンチマークは、新しいハードウェアのパフォーマンス主導の未来を指しています。OracleのNVIDIA GH200ベンチマークは、MLと従来のデータ処理タスクの両方についてNVIDIAが公開した結果を密接に追跡し、この新しいハードウェアを使用した信頼性の高い高パフォーマンスの高速化を示しています。



まとめ


今後、テクノロジー・コミュニティは、より詳細で徹底的なベンチマークを実施して、新規および既存のMLシステムに関する情報に基づいたハードウェアの購入決定を改善することを期待できます。このようなAIマシンを可能とするだけでなく、いつものようにビジネスを行うための、成長しているエコシステムがすぐにわかります。


OracleがNVIDIA GH200    をさらに強化し、最適化しているので、主要なアップデートと詳細をご確認いただけます。


Oracle Cloud Infrastructure AIインフラストラクチャの詳細をご覧になり、NVIDIA GH200へのアクセスについて、AIエキスパートにご相談ください。


コメント

このブログの人気の投稿

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)