一般提供: クラウドでフルマネージドのLustre File Storage (2025/04/03)

一般提供: クラウドでフルマネージドのLustre File Storage (2025/04/03)

https://blogs.oracle.com/cloud-infrastructure/post/fully-managed-lustre-file-storage-in-the-cloud

投稿者: Sabrinath Rao | Sr. Director, Product Management, OCI Storage

Prashant Jagannathan | Principal Product Manager


25,000件の会話が並行して行われ、すべての会話がレスポンスを待っているとします。これは、お客様が今日大規模言語モデル(LLM)をトレーニングして導入する際にストレージ・システムに起こることです。画像、動画、音声、その他のリッチコンテンツを含むマルチモーダル・トレーニングをミックスに追加し、10xを拡大しました。人工知能(AI)/機械学習(ML)のワークロードは、この規模で日常的に動作します。GPUは、テラビット/秒(Tbps)スループットの10sでデータのペタバイト(PB)の10sを並行して処理し、世界で最も複雑なモデルを可能にします。これには、1000sのファイルの100sに並行してアクセスし、高速でGPUの1000sの100sにフィードできる非常に高速なストレージ・システムが必要です。


Oracle Cloud Infrastructure(OCI)File StorageをLustreとともに導入し、これらのワークロードのパフォーマンス需要に対応しています。Lustreは、並列I/Oパフォーマンスを大規模に提供するように設計されており、大規模大規模大規模言語モデル(LLM)トレーニングおよびスーパーコンピューティングプロジェクトで広く使用されています。


OCI File Storage with Lustreは、Lustreに基づくフルマネージド・サービスです。これにより、Lustreのパフォーマンスとスケールのメリットを享受できます。これには、ミリ秒のメタデータ・レイテンシ、ペタバイトまでの容量、およびテラバイト/秒の高スループットが含まれますが、管理の複雑さは解消されます。フルマネージド・サービスとして、OCIはファイル・システムのデプロイメント、スケーリング、メンテナンスを自動化します。さらに、このサービスはOCIをリードするBlock Storage Service上に構築されているため、Block Storage Serviceで実行されるエンタープライズ・アプリケーションと同じエンタープライズ・クラスの可用性と耐久性を期待できます。


Lustreファイル・システムは、何千ものクライアントから並行してアクセスできます。OCI File Storage with Lustreは、Oracle Kubernetes Engine (OKE)とシームレスに統合されており、GPUホスト、ベアメタルまたは仮想化環境にデプロイできます。


OCI File Storage with LustreがOracle Cloudコンソールで使用可能になりました。価格は、プロビジョニングされた容量層とパフォーマンス層に基づきます。詳細は、Oracle Cloudの価格のWebページを参照してください。




顧客ユースケース


LLMトレーニングやエンジニアリング・シミュレーション・モデルなどのユース・ケースでは、すでにLustreサービスのメリットを享受しています。


大規模なLLMトレーニング: OCI File Storageを使用して実行された最新の大規模LLMトレーニングで、複数のPBに拡張され、OCIで管理され、25,000 GPUをフィードし、総速度は最大20テラビット/秒(Tbps)です。


AI for Engineering: 産業用AIシミュレーションのリーダーであるNXAIは、製造、物流、エネルギー分野向けに大規模な言語モデルを提供しており、OCI File StorageとLustreを使用してAIのトレーニング速度を向上させています。


物理シミュレーション: Emmi AIは、物理アーキテクチャとモデルを強化して、電気システム、熱シミュレーション、航空宇宙工学のリアルタイムのインタラクションを実現し、OCI File Storage with Lustreを使用してシミュレーション時間を短縮します。

「当社は、Lustreを使用したOCI File Storageの実装の容易さとスピードに感銘を受けました。AIトレーニング・プロセスを変革し、非常に効率的になりました。4X-10Xのパフォーマンス向上により、以前は数日かかっていたことが数時間で実現されるようになりました。このソリューションは、当社の事業にとって画期的な変化です。」    —Fabian Schlager氏、AI Platform Operations、Emmi AI(NXAI Spin-off)






OCI File Storage with Lustreを選ぶ理由


大規模なLLMモデル、GenAIアプリケーション、および物理シミュレーションを実行しているお客様は、すでにOCI File StorageとLustreを本番環境で大規模に使用しています。OCI File Storage with LustreはOracle Kubernetes Engine (OKE)とシームレスに統合されており、ファイル・システムにはGPUホスト、ベアメタルまたは仮想化サーバーからアクセスできます。有効にする主な機能の一部を次に示します


  • 大規模なパフォーマンス: 数千のクライアントとGPUからファイル・システムにパラレルにアクセスします。OCI File Storage with Lustreは、大量のデータ・ロードを効率的に処理します。ファイル・システムは最大20ペタバイト(PB)までスケール・アップできるため、トレーニング・データセット、研究モデル、チェックポイントなど、AI、ML、HPCデータを格納できます。プロビジョニングされた容量のテラバイト(TB)ごとに高い持続的なパフォーマンスを実現します。OCI File Storage with Lustreでは、次のパフォーマンス層が提供されます
    • プロビジョニングされたTBごとに125 MBps
    • プロビジョニングされたTBごとに250 MBps
    • プロビジョニングされたTB当たり500 MBps
    • プロビジョニングされたTB当たり1000 MBps
  • フルマネージド・サービス: OCI File Storage with Lustreは、ストレージ・サーバー、メタデータ・サーバー、データ・ボリュームなどのLustreインフラストラクチャ・コンポーネントの設定とメンテナンスの複雑さを排除するのに役立ちます。本番アプリケーションの実行を継続しながら、容量を簡単にスケール・アップし、オンデマンドでパフォーマンスを集約できます。この合理化により、インフラストラクチャ管理を気にすることなく、コア・ビジネス目標に集中できます。Oracle Cloudコンソール、コマンドライン・ツール、API、ソフトウェア開発者キット(SDKs)またはterraformを使用して、ファイル・システムを数分で作成できます。
  • 高可用性アーキテクチャ: 重要なワークロードが、インフラストラクチャの障害に対して高い可用性と自己回復性を備えたデータにアクセスするのに役立ちます。
  • Lustreとオブジェクトの間のシームレスなコピー(近日公開): Lustreファイル・システムをOCI Object Storageバケットにリンクして、オンデマンドでオブジェクト・ストレージ・データをコピーし、Lustreファイル・システムから直接アクセスできます。これにより、アクセスを高速化するために、オブジェクトからファイル・システムにデータをロードできます。
  • 割当て管理: OCI File Storage with Lustreでは、ユーザー、グループおよびプロジェクトの容量制限を設定できます。これにより、ストレージ・コストの抑制に役立つ予測可能なストレージ消費が可能になります。



Getting Started


ファイル・システムは、OCI Cloudコンソール、CLIまたはAPIから簡単に作成できます。独自のLustreファイル・システムを今日作成するには、Oracle Cloudコンソールで、Oracle CloudコンソールのLustre File Storageに移動します。次の図は、主なファイルシステム設定パネルを示しています。


図1: Oracle CloudコンソールでのLustre File Storageの選択


図2: 新しいLustre File Systemの作成




図3: パフォーマンス層と容量の選択


詳細は、次のリソースを参照してください。

コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle GoldenGate 23aiでMicrosoft Fabricでのオープン・ミラーリングがサポートされるようになりました (2024/11/19)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)