AIの効率的なスケーリング- MLPerfトレーニングv4.1におけるOCIのNVIDIA加速ブレイクスルー (2024/11/27)
AIの効率的なスケーリング- MLPerfトレーニングv4.1におけるOCIのNVIDIA加速ブレイクスルー (2024/11/27)
https://blogs.oracle.com/cloud-infrastructure/post/scaling-ai-oci-nvidia-breakthroughs-mlperf-v41
投稿者: Seshadri Dehalisan | Distinguished Cloud Architect
Jon Shelley | Consulting Member of Technical Stuff
Sanjay Basu PhD | Senior Director - Gen AI/GPU Cloud Engineering
OracleのMLPerf v4.1トレーニング・ベンチマーク・スイートへの最近の参加は、Oracle Cloud Infrastructure(OCI)の優れたAIトレーニング機能を例示しています。Oracleは、優れた成果を達成し、広範なAIワークロードの処理におけるOCIのスケーラビリティを示しています。この記事では、MLPerfベンチマークでOracleのパフォーマンスについて詳しく説明します。ベンチマークされたモデル、インフラストラクチャの詳細、およびNVIDIA GPUでのAIトレーニングの価値実現までの時間を短縮するOCIの強みを示す主要な結果に焦点を当てています。
OracleがMLPerfトレーニングに注力4.1
OCIのベアメタル・シェイプは、次のベンチマーク結果を達成しました。
|
Number of nodes |
GPU model |
GPU count |
Model: gpt3 in latency per second |
Model: llama2_70b_lora in latency per second |
BM.GPU.H100.8 |
16 |
NVIDIA H100-SXM5-80GB |
128 |
|
3.0658625 |
BM.GPU.H100.8 |
192 |
NVIDIA H100-SXM5-80GB |
1,536 |
19.6896167 |
|
BM.GPU.H100.8 |
384 |
NVIDIA H100-SXM5-80GB |
3,072 |
12.0924 |
|
BM.GPU.H100.8 |
64 |
NVIDIA H100-SXM5-80GB |
512 |
|
2.06486458 |
BM.GPU.H100.8 |
8 |
NVIDIA H100-SXM5-80GB |
64 |
|
4.75017917 |
MLPerf v4.1 training closed、 entries 4.1-0013 to 4.1-0017を参照してください。
MLPerfトレーニングv4.1ベンチマークで、Oracleは、OCIのNVIDIAアクセラレーテッド・インフラストラクチャで実現可能なスケーラビリティと効率性を強調することを目的として、GPT-3とLlama 2 70B-LoRAの2つのモデルに焦点を当てました。オラクルの戦略は、NVIDIAアクセラレーテッド・コンピューティング・インスタンスと、NVIDIA ConnectX NICによるコンバージド・イーサネット(RoCEv2)インフラストラクチャを介したOCIのRDMAによって強化された、ハイデマンドのAIトレーニングをサポートするOCIの能力を強調することでした。Oracleは、すでにMLPerf 4.0の結果で優れたパフォーマンスを達成しています。
高いスループットとメモリー容量の両方を提供するOCIインスタンスであるBM.GPU.H100.8シェイプを使用することを選択しました。この構成の各ノードには、8つのNVIDIA H100 Tensor Core GPUと2TBのRAMが含まれています。この高仕様構成により、GPT-3実行用に最大384のノードをテストするOracleにより、優れたスケーラビリティを実現でき、次の仕様でトレーニング時間を短縮し、レイテンシを削減できます。
- ノード当たりのGPU: 8つのH100s
- GPUメモリー: 80GB HBM3 x 8 (合計640GB)
- CPU: Intel Sapphire Rapids 2x 56c
- CPUメモリー: 2TB DDR5
- ストレージ: 61.4TB NVMe
- フロントエンド・ネットワーク・インタフェース・カード(NIC): 1つのNVIDIA ConnectX-6 Dx 100G
- クラスタNIC (RoCEv2): 8つのNVIDIA ConnectX-7 400GbE
GPT-3のベンチマーク結果
GPT-3ベンチマークは、192および384のBM.GPU.H100.8ノードで構成されたOCIで実行され、合計で1,536および3,072のNVIDIA H100 Tensor Core GPUがそれぞれ使用されました。その結果、GPUリソースが増加するにつれて、 トレーニング時間が大幅に短縮され、OCIのインフラストラクチャの直線的なスケーラビリティが明らかになりました。構成は、ベンチマーク結果で次の完了時間を 達成しました。
- 192ノード(1,536 NVIDIA H100 TensorコアGPU): 19.69秒
- 384ノード(3,072 NVIDIA H100 TensorコアGPU): 12.09秒
これらの結果は、拡張ワークロードを処理するOCIの能力を反映しており、スケーリング効率は、GPT-3のような大規模モデルのトレーニングにおけるパフォーマンスの向上に直接貢献しています。
図1: GPU数に対するGPT-3レイテンシ
LLAMA2 70B-LoRAのベンチマーク結果
Llama 2 70B-LoRAモデルの場合、512-4,096 NVIDIA H100 Tensor Core GPUの範囲に対応するOracle u 64、128および512 BM.GPU.H100.8ノード。GPT-3の結果と同様に、Oracle Cloud Infrastructureは、GPUリソースがスケール・アップするにつれて、 完了時間を短縮する次の効率性を実証しました。
- 8ノード(64 NVIDIA H100 TensorコアGPU): 4.75秒
- 16ノード(128 NVIDIA H100 TensorコアGPU): 3.07秒
- 64ノード(512 NVIDIA H100 TensorコアGPU): 2.06秒
これらの結果は、増加する規模でトレーニング時間を短縮するOCIの機能を示しており、高性能で大規模なAIモデル・トレーニングの可能性を確認しています。
図2: GPU数に対するLlama 2のレイテンシ
分析の強化
MLPerf v4.1のベンチマークを拡張したOracleは、堅牢な3.2Tbps RoCEv2ネットワークにより、優れたAIトレーニング・パフォーマンスを発揮しました。このパフォーマンスは、最大3,072個のGPUの大規模スケールでも、他のRoCEv2ベースのファブリックと連動していることがわかりました。特に、Oracleは、NVIDIAシステムの0.92xから1.01xまでのパフォーマンス・レベルを達成し、OracleのH100加速インフラストラクチャの効率性を強調しました。
Oracleは、ネットワーク・ローカリティを使用すると、結果が約4%向上し、Llama 2 70Bの64ノード(512 GPU)のNVIDIAのベンチマークと一致するパフォーマンスが得られると判断しました。
このレベルのパフォーマンスは、企業向けのスケーラブルで高パフォーマンスのAIインフラストラクチャへのOracleの投資の重要性を強調しています。
まとめ
MLPerf v4.1のトレーニング結果は、OCIのNVIDIAアクセラレーテッド・コンピューティング とConnectX-7 Ethernet RoCEv2 NIC製品によって強化される、AIインフラストラクチャにおけるOracleの進歩を反映しています。GPT-3とLlama 2の両方のベンチマークで堅牢なスケーラビリティと低レイテンシを示すことで、Oracle Cloud InfrastructureはエンタープライズAIトレーニング・ニーズに対応するための堅牢な選択肢として確立されます。Oracleのお客様は、数千のノードにまたがる柔軟性により、トレーニング時間を短縮し、複雑なAIワークロードの価値実現までの時間を短縮することができます。
前のMLPerfトレーニング結果については、次のリソースを参照してください。
- MLPerf v4.0トレーニングが終了しました。エントリ4.0-0009から4.0-0012
- MLPerfトレーニング・ベンチマークOCI GPUスーパークラスタでの4.0の結果
結果は2024年11月25日に取得され、MLCommons協会によって検証されました。MLPerfの名前とロゴは、米国およびその他の国におけるMLCommons協会の登録商標および登録解除商標です。全著作権所有。無断使用は固く禁じられています。詳細については、ML Commonsを参照してください。
コメント
コメントを投稿