現在一般提供中: クラウドで最大かつ最速のAIスーパーコンピュータ (2024/11/19)
現在一般提供中: クラウドで最大かつ最速のAIスーパーコンピュータ (2024/11/19)
https://blogs.oracle.com/cloud-infrastructure/post/now-ga-largest-ai-supercomputer-oci-nvidia-h200
投稿者: Sagar Zanwar | Principal Product Manager, Compute
Akshai Parthasarathy | Product Marketing Director, Oracle
NVIDIA H200 Tensor Core GPUを搭載したOracle Cloud Infrastructure(OCI)Superclusterの一般提供を発表できることを嬉しく思います。クラウドで利用可能な最大のAIスーパーコンピュータ*。最新のSuperclusterは、業界をリードする65,536 GPUまで拡張できます。最大規模で、最大260のExaFLOPSのピークFP8パフォーマンス(前世代の4倍以上)を提供できます。
Supercluster内の各OCIコンピュート・インスタンスでは、H100インスタンスと比較して、高帯域幅のメモリー容量が76%、メモリー帯域幅が40%増加しているため、最大1.9Xで大容量言語モデル(LLM)推論のパフォーマンスが向上します。データの取り込みと取得のためのフロントエンド・ネットワーク・スループット(インスタンス当たり200Gbps)を2倍にすることで、クラスタとの間のデータ転送も劇的に改善され、AIモデルのトレーニングとデプロイメントがさらに加速されます。
NVIDIA H200 GPUを搭載したOCI Supercluster: 優れた価格でさらに高いスケーラビリティとパフォーマンスを実現
AIモデルは、精度、流暢性、効率性、マルチモーダル機能、その他の次元を向上させるために、1兆個以上のパラメータを使用することで、進化し続け、より能力を発揮します。これらの新しいモデルでは、非常に大規模なクラスタに配置された高速なGPUが必要です。OCI Superclusterには、次の機能があります。
- OCIのベアメタルGPUコンピュートは、ハイパースケーラの中で独特であり、ハイパーバイザーのオーバーヘッドを取り除き、エンド・ユーザーは各インスタンスのCPUとGPUから最大の価値を得ることができます。
- NVIDIA ConnectX-7ネットワーク・インタフェース・カード(NIC)上でRDMA over Converged Ethernet Version 2 (RoCE v2)を使用し、高スループット(ラック間の400Gbps GPUからGPUへのインターコネクト)と超低レイテンシの2.5-9.1マイクロ秒をサポートする、OCIのカスタム設計クラスタ・ネットワーク。この構成により、数万のGPUにわたってLLMのトレーニングを高速化できます。
- アップグレードされた200Gbpsのフロントエンド・ネットワークにより、新しいSupercluster内のインスタンスは、ストレージとGPU間で大規模なデータセットをより効率的に移動できるため、反復を高速化し、スケーリングを効率化できます。
- 組み込みのハードウェア・アクセラレーションと効率的なネットワーク処理を備えたNVIDIA BlueField-3 DPUを使用したAI固有のハードウェアおよびソフトウェア・アクセラレーションにより、高パフォーマンスのマウント・ターゲット(HPMT)、フルマネージドのLustreファイル・サービス(近日提供)、およびその他のAI固有のサービスでOCI File Storageを強化します。
何よりも、NVIDIA H100 GPU (BM.GPU.H100.8)の前の世代のインスタンスと同じように、価格はGPU当たり1時間当たり10ドルです。
BM.GPU.H200.8 の技術仕様
NVIDIA H200シェイプには、次の仕様があります。
- インスタンス名: BM.GPU.H200.8
- インスタンス・タイプ: ベア・メタル(ハイパーバイザなし)
- GPU: NVIDIA NVLink経由で接続された8つのNVIDIA H200 Tensor Core GPU
- GPUメモリー容量: 141GB HBM3eメモリー、各メモリー(NVIDIA H100より76%多い)
- GPUメモリ帯域幅: 4.8TB/秒(NVIDIA H100の1.4倍)
- CPU: 2基の56コアIntel Sapphire Rapids 8480以上
- システム・メモリー: 3TB DDR5
- ローカル・ストレージ: 8つの3.84TB NVMe SSD
- ハードウェア・アクセラレーション: NVIDIA BlueField-3 DPUでデフォルトで有効
- クラスタ・ネットワーク: 3,200Gbps (8つの400Gbpsリンク)
- フロントエンドネットワーク:200Gbps(BM.GPU.H100.8の2倍)
- OCI Superclusterスケール: 最大65,536のNVIDIA H200 GPU(NVIDIA H100 GPUを搭載したOCI Superclusterスケール4倍)
- 定価:GPU/時あたり10ドル(BM.GPU.H100.8と同じ)
Getting started
NVIDIA H200 GPUを使用してOracle Cloud Infrastructure Superclusterにアクセスするには、Oracle営業チームに連絡し、AIインフラストラクチャについてさらに学習します。
* CSP 1のスケーラビリティ: 20,000 NVIDIA H200 GPU、CSP 2およびCSP 3のスケーラビリティ: 公開不可
コメント
コメントを投稿