現在一般提供中: クラウドで最大かつ最速のAIスーパーコンピュータ (2024/11/19)

現在一般提供中: クラウドで最大かつ最速のAIスーパーコンピュータ (2024/11/19)

https://blogs.oracle.com/cloud-infrastructure/post/now-ga-largest-ai-supercomputer-oci-nvidia-h200

投稿者: Sagar Zanwar | Principal Product Manager, Compute

Akshai Parthasarathy | Product Marketing Director, Oracle


NVIDIA H200 Tensor Core GPUを搭載したOracle Cloud Infrastructure(OCI)Superclusterの一般提供を発表できることを嬉しく思います。クラウドで利用可能な最大のAIスーパーコンピュータ*。最新のSuperclusterは、業界をリードする65,536 GPUまで拡張できます。最大規模で、最大260のExaFLOPSのピークFP8パフォーマンス(前世代の4倍以上)を提供できます。


Supercluster内の各OCIコンピュート・インスタンスでは、H100インスタンスと比較して、高帯域幅のメモリー容量が76%、メモリー帯域幅が40%増加しているため、最大1.9Xで大容量言語モデル(LLM)推論のパフォーマンスが向上します。データの取り込みと取得のためのフロントエンド・ネットワーク・スループット(インスタンス当たり200Gbps)を2倍にすることで、クラスタとの間のデータ転送も劇的に改善され、AIモデルのトレーニングとデプロイメントがさらに加速されます。



NVIDIA H200 GPUを搭載したOCI Supercluster: 優れた価格でさらに高いスケーラビリティとパフォーマンスを実現


AIモデルは、精度、流暢性、効率性、マルチモーダル機能、その他の次元を向上させるために、1兆個以上のパラメータを使用することで、進化し続け、より能力を発揮します。これらの新しいモデルでは、非常に大規模なクラスタに配置された高速なGPUが必要です。OCI Superclusterには、次の機能があります。


  • OCIのベアメタルGPUコンピュートは、ハイパースケーラの中で独特であり、ハイパーバイザーのオーバーヘッドを取り除き、エンド・ユーザーは各インスタンスのCPUとGPUから最大の価値を得ることができます。
  • NVIDIA ConnectX-7ネットワーク・インタフェース・カード(NIC)上でRDMA over Converged Ethernet Version 2 (RoCE v2)を使用し、高スループット(ラック間の400Gbps GPUからGPUへのインターコネクト)と超低レイテンシの2.5-9.1マイクロ秒をサポートする、OCIのカスタム設計クラスタ・ネットワーク。この構成により、数万のGPUにわたってLLMのトレーニングを高速化できます。
  • アップグレードされた200Gbpsのフロントエンド・ネットワークにより、新しいSupercluster内のインスタンスは、ストレージとGPU間で大規模なデータセットをより効率的に移動できるため、反復を高速化し、スケーリングを効率化できます。
  • 組み込みのハードウェア・アクセラレーションと効率的なネットワーク処理を備えたNVIDIA BlueField-3 DPUを使用したAI固有のハードウェアおよびソフトウェア・アクセラレーションにより、高パフォーマンスのマウント・ターゲット(HPMT)、フルマネージドのLustreファイル・サービス(近日提供)、およびその他のAI固有のサービスでOCI File Storageを強化します。


何よりも、NVIDIA H100 GPU (BM.GPU.H100.8)の前の世代のインスタンスと同じように、価格はGPU当たり1時間当たり10ドルです。



BM.GPU.H200.8 の技術仕様


NVIDIA H200シェイプには、次の仕様があります。


  • インスタンス名: BM.GPU.H200.8
  • インスタンス・タイプ: ベア・メタル(ハイパーバイザなし)
  • GPU: NVIDIA NVLink経由で接続された8つのNVIDIA H200 Tensor Core GPU
    • GPUメモリー容量: 141GB HBM3eメモリー、各メモリー(NVIDIA H100より76%多い)
    • GPUメモリ帯域幅: 4.8TB/秒(NVIDIA H100の1.4倍)
  • CPU: 2基の56コアIntel Sapphire Rapids 8480以上
  • システム・メモリー: 3TB DDR5
  • ローカル・ストレージ: 8つの3.84TB NVMe SSD
  • ハードウェア・アクセラレーション: NVIDIA BlueField-3 DPUでデフォルトで有効
  • クラスタ・ネットワーク: 3,200Gbps (8つの400Gbpsリンク)
  • フロントエンドネットワーク:200Gbps(BM.GPU.H100.8の2倍)
  • OCI Superclusterスケール: 最大65,536のNVIDIA H200 GPU(NVIDIA H100 GPUを搭載したOCI Superclusterスケール4倍)
  • 定価:GPU/時あたり10ドル(BM.GPU.H100.8と同じ)


Getting started


NVIDIA H200 GPUを使用してOracle Cloud Infrastructure Superclusterにアクセスするには、Oracle営業チームに連絡し、AIインフラストラクチャについてさらに学習します。



* CSP 1のスケーラビリティ: 20,000 NVIDIA H200 GPU、CSP 2およびCSP 3のスケーラビリティ: 公開不可


コメント

このブログの人気の投稿

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)

Oracle Cloudのデータベースをオブジェクト・ストレージにバックアップする3つの方法 (2021/12/13)