MLPerf: OCI上でのマルチノードMLトレーニングのベンチマーク (2023/02/28)

MLPerf: OCI上でのマルチノードMLトレーニングのベンチマーク (2023/02/28)

https://blogs.oracle.com/cloud-infrastructure/post/mlperf-benchmark-multi-node-ml-training-on-oci

投稿者:Joanne Lei

Ruzhu Chen | Master Principal Cloud Architect


前回の記事「Accelerate distributed deep learning with OCI」では、OCIのRDMAネットワーキングによって、GPUノード1台を超えるスケーリング時にモデルのトレーニングジョブを高速化できることを説明しました。具体的な例で性能向上を示すため、4つのBare Metal GPUノード(BM.GPU.GM4.8)からなるComputeクラスタを立ち上げ、MLPerfトレーニングベンチマークを実行しました。各BM.GPU.GM4.8はNVIDIA A100 80G GPUを8基搭載しているため、Computeクラスタは最大32GPUまでスケールアップし、機械学習(ML)トレーニング時間を高速化することができます。



MLPerf 101


MLPerfは、オープンエンジニアリングコンソーシアムであるMLComonsが開発したベンチマークスイートで、様々なシステムの学習・推論性能を評価するためのものです。学習ベンチマークでは、システムが目標精度のモデルをどれだけ速く学習できるかを測定し、推論ベンチマークでは、システムが新しい入力を処理し、学習済みモデルを使用して予測を計算できるかを測定します。MLPerfは、ML向けのさまざまなハードウェアインフラやソフトウェアフレームワークを測定・比較するための業界指標となりつつあります。



NVIDIA A100 Tensorコアを搭載したOCI Computeクラスタは、リニアにスケール


今回のベンチマークでは、画像分類と自然言語処理(NLP)の両方のユースケースをカバーする性能を把握するために、以下のモデルを実行しました。


  •     MLPerf v1.1 ResNet50 (画像分類)
  •     MLPerf v2.1 ResNet50 (画像分類)
  •     MLPerf v2.1 BERT (NLP)


以下の図では、1ノード=8GPU、2ノード=16GPU、4ノード=32GPUとしています。



その結果、異なるMLフレームワークを用いた3つのモデルすべてにおいて、Computeノード数の増加に伴い、ほぼ直線的に性能が向上することがわかりました。複数のノードでMLモデルをトレーニングする場合、性能向上はしばしばサブリニアとなり、ノードを増やしても性能向上に比例しないことを意味します。その要因のひとつが通信のオーバーヘッドです。OCIの高スループット、超低遅延RDMAネットワークにより、クラスタはノード間のGPU間通信を最適化することで、トレーニングジョブを効率的に分散させることができました。例えば、ResNet50 v1.1モデルのトレーニングに要する時間は、8GPUで31.5分、32GPUで10.67分と短縮されています。


トレーニング時間の短縮は、MLモデルをより迅速にトレーニングできることを意味し、データサイエンティストやエンジニアはより迅速に反復し、異なるモデルアーキテクチャ、ハイパーパラメータ、データセットを実験することができます。このスピードは、より正確なモデルや、変化するビジネス環境に素早く対応するための高い開発アジリティにつながります。


詳細なレポートは、Oracle Cloud Infrastructure (OCI)の非公式ベンチマークサイトでご覧いただけます。



まとめ


このシリーズの次の記事では、RDMAをサポートしたMLPerfのマルチノードトレーニングを設定するための技術的な詳細に踏み込みます。


OCIでは、大規模な言語モデルのトレーニングやAIのアットスケールでの展開について、クラウドエンジニアによるサポートを提供しています。Oracle Cloud Infrastructureの機能の詳細については、弊社にお問い合わせいただくか、以下のリソースをご覧ください。

コメント

このブログの人気の投稿

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)

Oracle Cloudのデータベースをオブジェクト・ストレージにバックアップする3つの方法 (2021/12/13)