AMD Instinct MI300X Acceleratorを使用したLlama 3.1 405Bモデルの提供 (2024/10/10)

AMD Instinct MI300X Acceleratorを使用したLlama 3.1 405Bモデルの提供 (2024/10/10)

https://blogs.oracle.com/cloud-infrastructure/post/serving-llama-31-405b-model-with-amd-mi300x-gpus

投稿者: Amar Gowda | Sr. Principal Product Manager

Sowmya Srinivasa Raghavan | Data Scientist

Sid Padgaonkar | Sr. Director - Product Management (Gen AI) - Strategic Customers


以前のブログ記事で、当時最も人気があり最大のLlamaモデルであるLlama 2 70B生成AI(Gen AI)大規模言語モデル(LLM)を提供するAMD Instinct MI300X Acceleratorのパフォーマンスについて説明しました。LLMサービング・アーキテクチャとユースケースは同じままですが、MetaのLlamaの3番目のバージョンは、使いやすさと正確性を大幅に向上させます。この新しいモデルであるLlama 3.1は、4050億個のパラメータを持つはるかに大規模なモデルを備えており、推論のニーズにより多くのGPUメモリーと処理が必要です。このブログ投稿では、MI300Xシェイプ(BM.GPU.MI300X.8)を使用したOracle Cloud Infrastructure (OCI) Computeを使用したLlama 3.1のベンチマークについて説明します。


各BM.GPU.MI300X.8シェイプには、8つのMI300X GPUアクセラレータが付属しており、それぞれに192 GBのHBM3メモリーと5.2 TB/秒のメモリー帯域幅があり、合計で1.53 TBのメモリーがあり、仕様の詳細はこちらを参照してください。この機能を使用すると、大規模なLLMモデルを実行し、推論リクエスト中により多くの同時ユーザーに対応できます。Llama 3.1 405B FP8モデルの単一インスタンスのパフォーマンスを単一のOCIベア・メタル・インスタンスでテストしました。8つすべてのGPUが、次に示す番号に対応するために割り当てられました。



LLMサービング・パフォーマンス

レイテンシ測定


オフライン・ベンチマークは、vLLMのscripts/benchmark_latency.pyを使用して測定されました。各テストには、入力サイズが128、出力サイズが128のトークンがありました。

Batch Size Output throughput in token per second (TPS) Average latency in seconds
1 36 3.530
2 71 3.583
4 137 3.734
8 258 3.974
16 468 4.375
32 798 5.130
64 1184 6.919
128 1585 10.340
256 1846 17.750

Alt text: Benchmark results for the Llama 3.1 405B FP8 model serving throughput to batch size.




スループット測定


次の表に、vLLMでbenchmark_throughput.pyを使用して測定されたオフライン・ベンチマークを示します。

Scenario Input size in tokens Output size in tokens Output throughput in TPS
Typical chatbot online scenario 128 128 1993
Generation heavy use case 128 2048 2794
Summarization use case with larger input token size 2048 128 316
Summarization and output generation heavy 2048 2048 1807


どちらのテストでも、次の構成を使用しました。


  • BM.GPU.MI300X.8シェイプの米国東部(アッシュバーン)リージョンにある8 GPUのAMD MI300X
  • AMD ROCmバージョン6.2
  • Llama 3.1 405B– AMDからのFP8定量化モデル
  • 最新のコンテナとパラメータの推奨事項- powderluv/vllm-docs: vLLM Dev Channelリリースのドキュメント(github.com)
  • vLLMバージョン0.6.1
  • vLLMからのスクリプトのベンチマークによるレイテンシとスループット



まとめ


LLMモデルの推論は、企業内で最も一般的に採用されているユースケースです。その結果、8つのAMD MI300X GPUを搭載した単一のOCI Computeベアメタル・インスタンスで、大型のLLMモデルにサービスを提供する効率性が明らかになりました。405Bモデルの単一インスタンスでは、1ユーザー当たり最大256の同時使用をサポートでき、一般的な人間の読取り速度5 TPSを上回ります。70Bや8Bなどの小規模なLLMモデルなど、1つのコンピュート・ノードで複数の小規模なモデル・インスタンスを実行して、単一ノードの合計スループットを向上させ、Gen AIワークロードに対応するコンピュート・コストをより適切に管理することもできます。


この実験を繰り返すか、新しいシナリオを試すことに興奮している場合は、開始の投稿を確認するか、オラクルにご連絡ください。次の投稿では、シングルノードとマルチノードの両方の設定について、機械学習(ML)のファインチューニングとMLのトレーニング・パフォーマンスの数値をMI300Xと共有する予定です。お客様がカスタム・データセットと一般的なオープンソースの基盤モデルを使用してモデルを微調整する一般的なユースケース。お待ちください!


詳細は、次のリファレンスを参照してください。


コメント

このブログの人気の投稿

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)