Ansys Fluent、Oracle Cloud Infrastructure上のNVIDIA GPUを使用して大幅なパフォーマンス向上とコスト削減を実現 (2024/09/26)
Ansys Fluent、Oracle Cloud Infrastructure上のNVIDIA GPUを使用して大幅なパフォーマンス向上とコスト削減を実現 (2024/09/26)
https://blogs.oracle.com/cloud-infrastructure/post/ansys-fluent-performance
Fluentは、Ansysが開発した業界をリードする計算流体力学(CFD)パッケージで、さまざまなアプリケーションで世界中で使用されています。CFDシミュレーションがますます複雑になり、要求が高まる中、GPUアクセラレーテッド・コンピューティングは、エンジニアがシミュレーションの境界を押し広げ、設計プロセスを加速できるようにするために不可欠になりました。2023年以来、Ansysは、主流のCFDワークロード向けのGPUアクセラレーテッド・コンピューティングのパワーを最大限に活用できるCFDソルバーをリリースしてきました。このブログ投稿では、Oracle Cloud Infrastructure (OCI)上のNVIDIA GPUを搭載したFluent 2024 R2のGPUソルバーによって提供される利点について説明します。
ベンチマーク
Oracle Cloud Marketplaceで利用可能なHPC Terraformテンプレートを使用して、様々なコンピュート・クラスタを作成しました。表1に、テストしたシェイプの概要を示します。より包括的な説明については、OCIのドキュメントを参照してください。
表1: コンピュート・シェイプ
表1: テスト済コンピュート・シェイプ
Compute shape |
CPU cores /node |
GPUs/node |
GPU Memory/GPU |
BM.Standard.E5.192 |
192 |
0 |
--- |
VM.GPU.A10.2 |
30 |
Two NVIDIA A10 Tensor Core GPUs |
24 GB |
BM.GPU.A10.4 |
64 |
Four NVIDIA A10 Tensor Core GPUs |
24 GB |
BM.GPU4.8 |
64 |
Eight NVIDIA A100 Tensor Core GPUs |
40 GB |
BM.GPU.H100.8 |
112 |
Eight NVIDIA H100 Tensor Core GPUs |
80 GB |
本研究で使われているベンチマークデータセットは、よく知られており、サイズや複雑さが異なるため、Ansysから入手し、Fluentリリースで提供されているスクリプト「fluent_benchmark_gpu.py」を使用してベンチマークを実行しました。パフォーマンス特性化のために、1秒当たり100万回の反復更新(MIUPS)の出力を記録しました。この結果、値が大きいほど全体的なパフォーマンスが向上し、処理時間が短縮されます。
Oracle Linux 8およびFluent 2024R2を使用して、すべてのベンチマークを単一の専用コンピュート・シェイプで実行しました。参考までに、最先端のCPUベースのシステムであるCPUベースのBM.Standard.E5.192を使用しました。ブログ投稿のAnsys Fluentパフォーマンスは、第4世代AMD EPYCを搭載したOCI E5 Standard Computeです。CPUベースのBM.Standard.E5.192では、すべてのコアを使用し、それぞれに1つのMPIドメインを割り当てます。
GPUシステムの場合、システム上のGPUごとに1つのMPIドメインを使用し、各ドメインに1つのCPUを割り当てました。「-gpu_remap」オプションを使用して、ドメインごとに異なるCPUコア数をテストしました。ただし、結果は一貫して複数のコアを使用した方が適切ではありませんでした。チャート1は、参照BM.Standard.E5.192コンピュート・シェイプの結果に基づいてパフォーマンスが1.0にスケーリングされた結果を示しています。全体的なパフォーマンスが大きく異なるため、縦軸にログ・スケールを使用しました。
分析
一見すると、主に様々なGPUに対する次のメモリー・サイズ制限のために、いくつかのデータ・ポイントが欠落しています。
- 2つのNVIDIA A10 Tensor Core GPUを搭載したVM.GPU.A10.2シェイプ(それぞれ24 GBのメモリーを搭載)の場合、GPUメモリーに収まる最大のテスト・ケースはcombustor_24mでした。
- 4つのA10 GPUを持つBM.GPU.A10.4シェイプの場合、GPUメモリーに収まる最大ケースはdrivaer_50mでした。
- 8つのNVIDIA A100 Tensor Core GPUを搭載したBM.GPU4.8シェイプ(それぞれ40 GBのGPUメモリを搭載)は、airfoil_80mケースまでのモデルに対応できます。ただし、このケースはGPUソルバーと収束できませんでした。結果をチャートに残して、ユーザーがGPUバージョンを完全に利用するには、データセットの更新が必要になる可能性があることに注意してください。
- 8つのNVIDIA H100 Tensor Core GPUを搭載したBM.GPU.H100.8シェイプ(それぞれ80 GBのGPUメモリを搭載)は、テストされたすべてのモデルに対応できます。
全体的に、NVIDIA GPUシェイプでの流暢なパフォーマンスは例外的でした。テストした最小のGPUシェイプのパフォーマンスは、VM.GPU.A10.2のリファレンスBM.Standard.E5.192シェイプより20%高速でしたが、VM.GPU.A10.2の公開オンデマンド価格は、CPUベースのBM.Standard.E5.192シェイプの40%です。パフォーマンスを考慮すると、ほぼ3Xのコスト削減になります。
ハードウェアとソフトウェアの両方に基づく合計ユーザー・コストは、実行時間が速くなると、1ジョブ当たりのソフトウェア・ライセンス・コストにメリットが得られることが多いため、さらに高くなる可能性があります。より強力なNVIDIA H100 GPUベースのシェイプでは、パフォーマンスの利点とコスト削減の傾向がさらに向上します。BM.GPU.H100.8 などの単一の8-NVIDIA H100 GPUコンピュート・シェイプで達成されたパフォーマンスは、数千のCPUコアで構成される大規模な専用HPCクラスタと同等です。
ユーザビリティの観点から見ると、本番環境でFluentを実行するためにOCIでNVIDIA GPUシェイプを使用することは、そのパフォーマンス上の利点と同じくらい深いものです。1つのGPUシェイプで大規模なジョブを実行すると、数千のコアを持つ大規模なCPUベースのHPCクラスタと同等の性能が得られます。複雑なHPCクラスタではなく、単一のノードでこのような大規模なFluentシミュレーションを実行する機能により、ジョブのスケジューリングと管理が大幅に簡素化されます。
まとめ
Fluentユーザーは、CPUベースのFluentワークロードをNVIDIA GPUに移行することを調査する説得力のある理由を、いずれも大幅なコスト削減の可能性の観点から明らかにしています。さらに説得力があるのは、全体的なパフォーマンスを大幅に向上させる能力です。Ansysユーザーには、30日間の無料トライアルを使用して、Oracle Cloud InfrastructureでFluentワークロードをテストすることをお薦めします。
詳細は、次のリソースを参照してください。
コメント
コメントを投稿