LustreのAI、ML、HPCワークロード向けのパフォーマンスとスケーラビリティで、OCI File Storageの詳細を見る (2025/09/04)

LustreのAI、ML、HPCワークロード向けのパフォーマンスとスケーラビリティで、OCI File Storageの詳細を見る (2025/09/04)

https://blogs.oracle.com/cloud-infrastructure/post/oci-file-storage-with-lustre-for-ai-ml-and-hpc

投稿者:Jon Shelley | Consulting Member of Technical Staff

Aboo Valappil | Sr. Principal Technical Product Manager

Heinz Mielimonka | Customer Success Director and Cloud Architect

Sudhir Upreti | Solutions Architect

エグゼクティブサマリー

Oracle Cloud Infrastructure File Storage with Lustreは、クリティカルなAI、機械学習(ML)、および高性能コンピューティング(HPC)ワークロード用の高性能ファイル・ストレージを必要とするIT意思決定者にとって魅力的なソリューションを提供します。このブログでは、厳密な合成ベンチマークを通じてFile Storage with Lustreのパフォーマンス機能を紹介することに焦点を当て、顧客に提供する独自のメリットについても説明します。業界標準のベンチマーク・ツールを実行することで、File Storage with Lustreが、一貫性のある高スループット、スケーラブルなIOPS、強力なメタデータ・パフォーマンスを提供できることを実証します。これらの属性は、AIおよびMLプロジェクトの加速、トレーニング・サイクルの高速化、大規模データ分析のサポートに不可欠です。この投稿は2部構成のシリーズの一部で、詳細なフォローアップ・ガイドであるOCI File Storage with Lustreでベンチマークを実行するには、これらのベンチマークを再現するための手順と結果が段階的に記載されています。

 

Lustreでファイルストレージを選ぶ理由とは?クラウドファイルストレージの新標準

現代のIT組織は、データドリブンなイノベーションを推進するために、スケーラブルで高性能かつ信頼性の高いインフラストラクチャを提供するという絶え間ないプレッシャーにさらされています。AIモデルのトレーニングやコンピューティング集約型のシミュレーションなど、ワークロードのデータ集約度が高まるにつれ、基盤となるストレージプラットフォームへの要求はかつてないほど高まっています。従来のストレージアーキテクチャは、大規模なパフォーマンス、柔軟性に欠ける拡張性、そして拡大し続ける環境における分散システム管理の複雑さといった問題に悩まされることがよくあります。

オラクルはこうした課題を認識し、OCI File Storage with Lustreを発表しました。これは、今日の最も要求の厳しいワークロードの厳しいニーズを満たすために特別に設計された、フルマネージドのファイルストレージサービスです。File Storage with Lustreは、導入、拡張、そして日々の管理の複雑さを排除することで、お客様がインフラストラクチャの管理ではなく、ビジネス価値の提供に集中できるようにします。

File Storage with Lustre は、OCI Cloud の完全な耐障害性と可用性を備えたオープンソースの Lustre をクラウドに実装します。File Storage with Lustre は、いくつかの基本的な強みによって他社製品とは一線を画しています。

  • 弾力的なスケーラビリティ:現在、Lustre のファイルストレージは、数十テラバイトから最大 20PB までオンラインで拡張可能です。31TB から小規模な構成で開始し、必要に応じてファイルシステムを拡張することで、ストレージの再設計や既存のワークフローの中断なしにデータの増加に対応できます。
  • 実証済みの大規模パフォーマンス:広範なベンチマークにより、リニアなパフォーマンススケーリングが実証されています。ストレージ容量の増加に伴い、スループットとIOPSはリニアに拡張され、ワー​​クロードとデータセットの増加に合わせて高速アクセスを実現します。
  • 運用の簡素化: OCIのマネージドインフラストラクチャを活用することで、File Storage with Lustreは、継続的なハードウェアチューニング、手動によるフェイルオーバー設定、スケーリングイベント時のダウンタイムといった煩雑な作業を排除します。セキュリティパッチ適用、Lustreのバグ修正、アップグレードといった作業はマネージドサービスが代行します。File Storage with Lustreは、ネイティブのOCI Monitoring Serviceと統合することで、監視を容易にします。  
  • 設計による高可用性と耐久性:統合された障害ドメイン アーキテクチャ、ストレージ ボリュームのレプリケーション、自動フェイルオーバー、単一障害点の排除により、ミッション クリティカルなワークロードの稼働時間が最大化されます。

 

パフォーマンス特性

Lustre のファイルストレージは、お客様の特定の要件に合わせて、様々なパフォーマンス層を提供します。現在、お客様は、最大 20PB のファイルシステムを含む、様々なサイズとパフォーマンス層のファイルシステムを本番環境で使用しています。

 

パフォーマンス層

1PB FSの総合パフォーマンス

プロビジョニングされた TB あたり 125 MBps (1 Gbps)

128GB/秒

プロビジョニングされた TB あたり 250 MBps (2 Gbps)

256GB/秒

プロビジョニングされた TB あたり 500 MBps (4 Gbps)

512GB/秒

プロビジョニングされた TB あたり 1000 MBps (8 Gbps)

1TB/秒

 

ベンチマーク結果: 透明性のある業界標準のパフォーマンス

Oracle は、Lustre を使用したファイル ストレージの実際の機能に対する顧客の信頼を高めるために、業界のツールを使用して厳密なテストを実施しました。

  1. IORベンチマーク: HPCワークロードに典型的な並列ファイルI/Oスループットを評価します。Lustreを使用したファイルストレージは、125TB(16クライアント)から250TB(32クライアント)まで、スループットが直線的に増加し、容量とクライアント数の増加に伴ってパフォーマンスが予測どおりに向上することを実証しました。
  2. FIOベンチマーク:ランダム読み取り/書き込み(この場合は60/40)を混在させたブロックレベルI/Oをシミュレートします。さまざまなブロックサイズ(1MB、128KB、4KB)でのテストでは、プロビジョニングされた容量に比例してIOPSも増加することが確認されました。
  3. MDTest:メタデータパフォーマンスに焦点を当てています。これは、大量のファイル作成、削除、統計情報を含むワークロードにとって非常に重要です。今回も、Lustre を使用したファイルストレージは、容量とメタデータターゲット(MDT)の数に比例したスケーラブルなメタデータパフォーマンスを示しました。

スループットのスケーリング

メタデータのスケーリング

図1 – スループット性能

図2 – メタデータのパフォーマンス

Lustre を使用したファイルストレージのベンチマークでは、追加のストレージ容量がプロビジョニングされると、スループットとメタデータの両方において線形かつ予測可能なスケーラビリティが実現されることが実証されています。業界標準のツール(IOR、FIO、MDTest)を使用し、並列ファイルI/O、ランダム/ブロック混合操作、メタデータパフォーマンスをテストしました。結果は、ファイルシステムのサイズとクライアント数の増加に比例してパフォーマンスが向上し、データ転送速度、IOPS、メタデータ操作など、すべての重要な側面をカバーしていることを示しています。重要なのは、これらの結果がすぐに使用できる導入環境で達成されたことです。AI、ML、HPC といった要求の厳しいワークロードにおいて、堅牢なパフォーマンスと使いやすさが際立っています。

 

Lustre で OCI ファイル ストレージを使い始める

OCI Cloud Console、Terraform、CLI、またはAPIから簡単にファイルシステムを作成できます。Oracle Cloud ConsoleでLustreファイルシステムを今すぐ作成するには、 Oracle Cloud Consoleの「Lustre File Storage」にアクセスするだけです。詳細な技術情報については、Lustreを使用したファイルストレージのドキュメントを参照するか、OCIにお問い合わせいただき 、ファイルシステムと全体的なパフォーマンス要件についてご相談ください。

詳細については、次のリソースを参照してください。

コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle GoldenGate 23aiでMicrosoft Fabricでのオープン・ミラーリングがサポートされるようになりました (2024/11/19)

OCIサービスを利用したWebサイトの作成 その4~Identity Cloud Serviceでサイトの一部を保護 (2021/12/30)