OCI AIインフラストラクチャの新機能: NVIDIA L40Sを搭載したMidrange Bare Metal ComputeとNVIDIA H100/A100を搭載したVM (2024/08/01)

OCI AIインフラストラクチャの新機能: NVIDIA L40Sを搭載したMidrange Bare Metal ComputeとNVIDIA H100/A100を搭載したVM (2024/08/01)

https://blogs.oracle.com/cloud-infrastructure/post/oci-ai-infra-bm-compute-nvidia-l40s-vms-h100-a100

投稿者: Akshai Parthasarathy | Product Marketing Director, Oracle

Sagar Zanwar | Principal Product Manager, Compute


Oracleは、最先端のインフラストラクチャを構築してきた歴史があります。15年以上前に、Exadata v1でRDMAベースのクラスタ・ネットワーキングを先駆けました。2016年には、ハイパースケーラ間でベアメタル・コンピュート・シェイプを導入しました。


当社は、数万のNVIDIA A100およびH100 Tensor Core GPU向けに、OCI Superclusterで最大のAIクラスタを支えています。また、1~4個のNVIDIA A10 Tensor Core GPUを搭載した単一ノードで、小規模な仮想デスクトップ、AI推論、AIトレーニング・ワークロードを有効にできました。ただし、中規模のAIトレーニングおよび推論のために、非常に小規模から非常に大規模なデプロイメントまで、エンタープライズ・ユースケースで満たす必要のあるギャップがありました。



私たちが発表する2つの新しいシェイプは次のとおりです。


  • BM.GPU.L40S.4、「L40Sベアメタル: 」は、OCI Superclusterで最大3,840個のGPUをサポートし、NVIDIA L40S GPU当たり1,466個のTFLOPSをサポートします。
  • VM.GPU.A100.1およびVM.GPU.H100.1、「A100 VM」および「H100 VM」はそれぞれ、NVIDIA H100 GPU当たり最大3,958 TFLOPSのVMフォーム・ファクタで単一のGPUをサポートするためです。



4つのNVIDIA L40S GPUを搭載したOCIベアメタル・コンピュート


今日注文可能- BM.GPU.L40S.4ベアメタル・コンピュート・シェイプは、4つのNVIDIA L40S GPUを備えており、それぞれに48GBのGDDR6メモリーがあります。このシェイプには、7.38TB容量のローカルNVMeドライブ、112コアを搭載した第4世代Intel Xeon CPU、および1TBのシステム・メモリーが含まれます。また、OCIは、パブリック・クラウドのハイパースケーラーの中で、ベア・メタル・シェイプに最適なオプションを提供しています。これらのシェイプにより、高スループットおよびレイテンシの影響を受けやすいAI/MLワークロードの仮想化のオーバーヘッドが排除されます。コンピュート・シェイプの高速化は、NVIDIA Bluefield-3 DPUを備えており、サーバーの効率性を向上させ、データセンター・タスクをCPUからオフロードして、ネットワーク、ストレージおよびセキュリティのワークロードを高速化します。NVIDIA Bluefield-3 DPUの使用は、OCIのオフボックス仮想化戦略をフリート全体にわたってサポートしています。


OCI Superclusterの超低レイテンシ・ネットワーキングは、NVIDIA L40Sと組み合わせて、ミッドレンジのスケーラビリティでのLLMのトレーニングと推論を行います。OCIのクラスタ・ネットワークでは、NVIDIA ConnectX RDMA NIC上にRDMA over Converged Ethernet Version 2 (RoCE v2)を使用して、高スループットでレイテンシの影響を受けやすいworkloads.The BM.GPU.L40S.4インスタンスも、4つのNVIDIA L40S GPUを搭載したスタンドアロン仮想ワークステーションとして使用できます。これらのミッドレンジクラスタは、次に示すように、800 Gb/秒のノード間帯域幅でサポートされます。


NVIDIA A10、NVIDIA L40S、NVIDIA H100 GPUのOCIシェイプの比較


BM.GPU.A10.4 

BM.GPU.L40S.4 (New) 

BM.GPU.H100.8 

Form factor

Bare metal

Bare metal

Bare metal

Hourly price ($ per GPU) 

$2

$3.50

$10

Performance (TFLOPS)*

250

1x

1,466

5x

3,958

15x

Scalability on OCI (# GPUs) 

4 (per node)

3,840 (per cluster)

16,384 (per cluster)

Cluster network (in Gbps) 

N/A

800 Gbps

3,200 Gbps


* NVIDIA L40SおよびNVIDIA H100の場合はFP16、NVIDIA A10の場合はFP8


OCIエンジニアは、品質を損なうことなく、ビデオを小規模で高速かつ低コストのバージョンに変換することを専門とするコンテンツ適応型ビデオ・ソリューションの世界的リーダーであるBeamrを支援し、わずか4か月でBeamrCloudを立ち上げました。OCIの使用について詳しく説明します。


「当社は、ベアメタル・インスタンスとNVIDIA L40S Tensor Core GPUを搭載したOCI AIインフラストラクチャを選択し、30%の効率的なビデオ・エンコーディングを実現しました。OCI上でBeamrCloudで処理されたビデオは、ストレージとネットワークの帯域幅消費を最大50%削減し、ファイル転送を2倍高速化し、エンドユーザーの生産性を向上させます。Beamr、OCIのお客様にビデオAIワークフローを提供し、ビデオの未来に備える」- Beamr Cloud、CEO、Sharon Carmel氏



1つのNVIDIA H100 GPUと1つのNVIDIA A100 GPUを搭載したOCI Compute VM


まもなく、80GBのHBM3メモリーを搭載した単一のNVIDIA H100 GPUと、40GB/80GBのHBM2eメモリーを搭載したNVIDIA A100 GPUを搭載したコンピュート仮想マシン・シェイプを提供します。VM.GPU.H100.1シェイプには、NVMeドライブ容量の2x3.84TB、第4世代Intel Xeonプロセッサの13コアおよび246GBのシステム・メモリーも含まれており、様々なAIタスクに適しています。


この新製品は、小規模なワークロードとLLM推論のための効果的なプラットフォームを提供し、NVIDIA H100 GPUのTransformer EngineとFP8のサポートにより、大規模なモデルを定量化して単一のGPUで効率的に実行できます。


OCI上の他のNVIDIAアクセラレーテッド・シェイプと同様に、このシェイプはOCI Kubernetes Engine (OKE)およびNVIDIA Operator for Kubernetesと互換性があります。NVIDIA AI Enterpriseソフトウェア・プラットフォームの一部であるNVIDIA Inference Microservices (NIM)、およびNVIDIA GPU Catalog (NGC)のその他のコンテナ・パッケージは、OKEにシームレスにデプロイできます。


Altairは、シミュレーション、高性能コンピューティング、人工知能の融合を活用して、企業の意思決定を変革しています。OCIは、同社が高速GPUで使用するアプリケーションを設計するのに役立ちました。OCIの使用について詳しく説明します。


「NVIDIA H100およびA100 Tensor Core GPUを搭載したOracle Cloudのベアメタル・コンピュート、低レイテンシのOCI Supercluster、高性能ストレージにより、Altairの計算流体力学(CFD)および構造力学ソルバーのコスト・パフォーマンスが最大20%向上しました。Altair Unlimited仮想アプライアンスの仮想マシンでこれらのGPUを活用することを楽しみにしています。」Altair、データ管理および分析担当チーフ・エンジニア、Yeshwant Mummaneni氏



NVIDIA GH200 Superchipを使用したOCI Compute


最後に、BM.GPU.GH200コンピュート・シェイプをお客様がテストできます。NVIDIA Grace Hopper SuperchipNVIDIA NVLINK C2Cは、NVIDIA Grace CPUとHopper GPU間の高帯域幅のキャッシュコヒーレントな900 GB/秒接続で、600GBを超えるアクセス可能なメモリを提供し、AIおよびHPCワークロードのパフォーマンスを最大10倍向上させます。NVIDIA Graceアーキテクチャと今後のNVIDIA Grace Blackwell Superchipに関心のあるお客様は、OCIにアクセスしてアクセスすることができます。



パートナーシップ


これらすべてのシェイプを、データ・サイエンスのパイプラインを加速し、生成AIの開発と導入を合理化するNVIDIA AI Enterprise、マイクロサービスと組み合わせることができます。Oracleは、コンテナをデプロイおよび管理するための複数のサービスを提供しています。これには、NVIDIAオペレータと互換性のあるOCI Kubernetes Engineが含まれます。



サマリーおよび次のステップ


Oracleは、ベアメタル・インスタンスを提供する最初の主要なクラウド・プロバイダであり、OCI Superclusterで65,536のNVIDIA GPUに近日中に拡張すると同時に、OCIクラウド事業者とお客様の両方の管理性を向上させます。ベアメタル・インスタンス、オフボックス仮想化、スケーラビリティを組み合わせることで、OCI AIインフラストラクチャはAI/MLワークロードにとって魅力的な選択肢となります。


オンラインのOCI AIインフラストラクチャにアクセスし、営業部門に問い合わせて詳細をご覧ください。


コメント

このブログの人気の投稿

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)