Altair nanoFluidX Oracle Cloud Infrastructureでのパフォーマンス (2025/05/01)
Altair nanoFluidX Oracle Cloud Infrastructureでのパフォーマンス (2025/05/01)
https://blogs.oracle.com/cloud-infrastructure/post/altair-nanofluidx-perfomance-at-oci
投稿者: Martin Feyereisen
はじめに
Altair nanoFluidXは、エンジニアが複雑なシステムの単一フェーズ・フローおよび複数フェーズ・フローを迅速にシミュレートおよび分析できるように設計された高度なソフトウェア製品です。メッシュレスSmooth Particle Hydrodynamics(SPH)法に基づいて、nanoFluidXは、特に要素のメッシュ作成が困難な場合に、仮想製品開発にCFDの使用を簡素化するのに役立ちます。SPHは従来の方法と比較して計算が集中していますが、GPUコンピューティングに非常に適しており、エンジニアは今日のGPU加速システムの巨大なパワーを活用できます。Oracle Cloud Infrastructure(OCI)は、エンジニアが様々なHPCシステムに迅速かつ簡単にアクセスし、通常、特注のオンプレミス・システムではすぐには利用できない新しい方法やソフトウェアを探索できるようにします。このホワイトペーパーでは、様々なGPUベースのOCIコンピュート・システムを使用したnanoFluidXのパフォーマンスについて考察します。
ベンチマーク
ベンチマークのために、Oracle Cloud Marketplaceで入手可能なHigh Performance Computing (HPC) Terraformテンプレートを使用して、様々なコンピュート・クラスタを作成しました。表1に、テストしたシェイプの概要を示します。より包括的な説明については、OCIのドキュメントを参照してください。
Table 1: OCI CPU Shapes Tested |
||||
Compute Shape |
GPUs/node |
GPU Mem./GPU |
Network |
Cluster size |
VM.GPU.A10.2 |
Two NVIDIA A10 |
24 GB |
TCP |
1-4 |
BM.GPU.A10.4 |
Four NVIDIA A10 |
24 GB |
TCP |
1-4 |
BM.GPU.L40s.4 |
Four NVIDIA L40 |
48 GB |
TCP |
1 |
BM.GPU4.8 |
Eight NVIDIA A100 |
48 GB |
ROCE |
1-4 |
BM.GPU.A100-v2.8 |
Eight NVIDIA A100 |
80 GB |
ROCE |
1 |
BM.GPU.H100.8 |
Eight NVIDIA H100 |
80 GB |
ROCE |
1 |
BM.GPU.H200.8 |
Eight NVIDIA H100 |
141GB |
ROCE |
1 |
Ubuntu 24.04.02およびNVIDIA CUDA® Toolkit 12.6で構成された専用システムで、ベンチマークに使用できるすべてのGPUを使用して、シングルノードとマルチノードの両方のベンチマークを実行しました。ベンチマーク期間中にシステムの可用性に基づいてマルチノード・テストを実行しました。最初の2つのマルチノード・システムは、50GbpsのTCPベースのイーサネットでネットワーク化されました。BM.GPU4.8 クラスタは、超低レイテンシの200Gbps RDMA over Converged Ethernet (RoCE) v2ネットワークでネットワーク化されました。ROCEネットワーキングを搭載したシェイプのネットワーク・レイテンシは1.6-2.0 usecの範囲で均一ですが、TCPネットワーク・ノードのネットワーク・レイテンシは、パフォーマンスが変化する可能性のあるクラウド・リージョン内のシェイプの場所に応じて異なる場合があり、これらのシステムで取得された結果は、よりアドバイザリとみなす必要があります。ベンチマークでは、コンピュート・シェイプを同じ可用性ドメインとフォルト・ドメインに配置して、パフォーマンス散布を最小限に抑え、ノード間レイテンシ(通常は20-80 usec)を観測しました。すべてのベンチマークにnanoFluidX 2025.0のプレリリース・バージョンを使用しました。この研究で使用されるベンチマークデータセットは、次のものを含むAltairから取得しました。
Table 2: Benchmark Cases |
|
Case |
Fluid particles |
E-Gearbox |
6.5m |
AeroGearbox |
21m |
Dambreak-S |
7m |
Dambreak-L |
54m |
Vehicle Wading |
11m |
分析
単一ノード・テスト
チャート1は、様々なデータセットについて取得した単一ノードの結果を示しています。
パフォーマンス値は、出力リストで指定されているジョブ・ウォール・クロック時間から抽出されました。チャート1のパフォーマンス参照は、VM.GPU.A10.2で得られた結果から取得されました。40GBおよび80GBのGPUメモリーNVIDIA A100 GPUに基づくBM.GPU.4.8およびBM.GPU.A100-v2.8システムの結果は、同等であり、「BM.GPU.A100.8」とリストされています。データセットのサイズは多岐にわたりますが、ベースライン2-GPU VM.GPU.A10.2と比較して、4-GPU BM.GPU.A10.4シェイプで実行すると、すべてのケースでほぼ直線的なスピードアップが示されました。BM.GPU.L40S.4シェイプは、ケースの範囲で非常に優れたパフォーマンスを発揮しました。約2.5Xの倍率で4-GPU BM.GPU.A10.4のパフォーマンスを簡単に上回り、最大級のテスト・ケースを除くすべての8-GPU BM.GPU.A100-v2.8シェイプのパフォーマンスを上回りました。BM.GPU.H100.8 およびBM.GPU.H200.8シェイプは、ほぼ同一のパフォーマンスを示し、BM.GPU.A100-v2.8シェイプのパフォーマンスの2倍近くでした。
マルチノードテスト
マルチノードテストから得られた結果は混在した。一般に、マルチノードの並列速度アップは、個々のノードとノードを接続するネットワークの相対的なパフォーマンスに関連しています。つまり、ネットワークが高速になるほど、並列速度が向上し、計算ノードが高速になるほど、並列速度が低下します。その結果、ジョブを実行する経過時間は、マルチノードの並列速度アップの速度よりも多く使用されます。テストしたケースでは、最も強力なシェイプでの実行に重点を置くことで最高のパフォーマンスが得られ、本番ワークロードに最適なオプションになる傾向があります。ただし、多くの場合、コストはエンジニアリング分析において重要な要素であり、エンジニアは通常、システム・パフォーマンスとコストのバランスを取ることが困難です。このトレードオフは、チャート2の様々なシェイプについて検討します。
ここでは、マップは、作業コストと車両ウェディング・テスト・ケースを実行する壁時間の両方を表し、壁時間は横軸(VM.GPU.A10.2=1.0)上にあります。ジョブ当たりのコストは垂直軸に表示されます。これは、OCI Webサイトで指定されたシェイプ・コストの積と、VM.GPU.A10.2を参照として使用してジョブを実行する時間に基づいています。テストに使用されるコンピュート・シェイプの数は、テスト用にクラスタ内で使用されている様々なノード数を接続する線で円で示されます。完全なスピードアップでは、線は水平である必要があります。BM.GPU.H100.8 のパフォーマンスとコストはBM.GPU.H200.8と区別できず、両方ともBM.GU.Hopperとしてリストされています。
50gbps TCPネットワークを使用する場合でも、このテスト・ケースではVM.GPU.A10.2 4ノード・クラスタがリニア・スピードアップの近くに表示され、BM.GPU.A10.4クラスタは2つのノード間でもリニア・スピードアップの近くに表示され、4つのノードでパフォーマンスが低下します。実際、合計8つのNVIDIA A10 GPU(4ノードVM.GPU.A10.2および2ノードBM.GPU.A10.4)を持つシステムの結果は、ほぼ同一のパフォーマンスを示しています。より強力なBM.GPU4.8クラスタは、1ノードから2ノードへのわずかなスピードアップと、200GbpsのROCEネットワークがはるかに高速であっても2ノードから4ノードへの最小の速度アップのみを表示しましたが、単一ノードは4ノードのBM.GPU.A10.4クラスタと比較して、ほぼ同等のジョブ・コストとパフォーマンスを実現しました。より強力なノードでは、コンピュート能力を活用するためにはるかに大きなモデルが必要であり、テスト済モデルは一般的な工業用サイズです。マルチノードのGPUシステムがアクセスしやすくなるにつれて、インダストリアル・ケースのサイズと解決が増加することが予想されます。
BM.GPU.L40Sシェイプは8 GPUを搭載したシェイプほど高速ではありませんが、ジョブ・コスト全体は他のすべてのシェイプよりも大幅に優れているため、ジョブ・ターンアラウンド時間が最も重要である最も要求の厳しいジョブ以外のすべてのジョブでの使用が望ましい選択肢となります。これらのジョブでは、BM.GPU.H100.8またはBM.GPU.H200.8のいずれかが優先される可能性があります。どちらのシェイプも、テストしたジョブのパフォーマンスとコストが似ていますが、より大きなジョブの場合、BM.GPU.H200.8は、メモリー・サイズが大きい(141GBと80GB)ため、BM.GPU.H100.8よりも優先される可能性があります。
まとめ
nanoFluidXは、OCIでテストしたすべてのGPUベースのシェイプで適切に動作しますが、結果によると、現在BM.GPU.L40Sシェイプは、テストしたケースのパフォーマンスとコストの最適なバランスを提供している可能性があります。大規模なモデルの場合、8-GPUベースのシェイプはより実用的なソリューションである可能性があり、非常に大きなケースでは、マルチノード・システムが合計実行時間を短縮するのに役立ちます。nanoFluidXユーザーは、30日間の無料トライアルを使用してOracle Cloud Infrastructureのワークロードをテストすることをお薦めします。
詳細は、次のリソースを参照してください。
コメント
コメントを投稿