NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26)

NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26)

https://blogs.oracle.com/cloud-infrastructure/post/dbrx-llms-oci-nvidia-nim-delta-sharing

投稿者:Sanjay Basu PhD | Senior Director - Gen AI/GPU Cloud Engineering


最近のDatabricks Data+AI Conferenceでは、NVIDIA Inference Microservices (NIM)とDelta Sharingを使用して、Oracle Cloud Infrastructure (OCI)にDBRX大規模言語モデル(LLM)をデプロイしました。このブログ投稿では、アーキテクチャ、利点およびデプロイメント・プロセスに焦点を当てて、プレゼンテーションの主なポイントとハイライトをまとめています。


クラシック検索拡張生成(RAG)ワークフローで使用するために、異なるデータソースからOCIにデータを集計するエンド・アーキテクチャから始めましょう。OCI上のNVIDIA L40SでNVIDIA NIMサービスを使用してデプロイされたDBRX LLMを使用しています。また、OCIで実行されているNVIDIA H100のワークフローも検証しました。



RAGを使用したデータの集計



この図は、OCIサービス内のデータ処理、埋込み、問合せおよび推論に関連するワークフローの概要を示しています。このワークフローでは、データの処理、埋込みの作成、ベクトル・データの格納および問合せ、およびOCI内の高度なNVIDIA GPUを使用した推論を行うための様々なコンポーネントの統合が強調表示されます。これは、次の段階を通過します。


  1. データソース: ワークフローは、インターネット、OCI FastConnect、OCI-Azure Interconnect、IPSec VPNなど、様々なネットワーク・トランスポートを介してアクセスできる様々なソースからのデータを集約することから始まります。次に、リージョン内またはリージョン間のVCNピアリングでOCIバックボーンを使用します。このワークフローでは、Databricks Delta Sharingプロトコルを使用しています。データを共有するには、デルタ共有を使用します。デルタ共有では、バッチまたはストリーミングのデータ取り込みが可能です。デルタ共有には、レガシー・データ・レプリケーション・サービスよりも利点があります。これについては、この記事の後半で説明します。
  2. データ処理: 取り込まれたデータは、Dense Computeインスタンスによって処理されます。このステップでは、データからチャンク埋込みを作成します。この関数にはOCI Dense Computeシェイプを使用しています。
  3. Oracleベクトル・データベース: 処理された埋込みおよびチャンクがベクトル・データベースに取り込まれます。ベクトル・データの処理用に設計された特殊なデータベースであるOracle 23aiを使用しています。これらの埋込みに基づいて、問合せが作成されます。
  4. 埋込みモデル: 埋込みモデルによってチャンク埋込みと問合せ埋込みが作成され、効率的な問合せおよび取得が容易になります。OCI Generative AIサービスのAPIベースのCohere Embeddingモデルを使用できます。このケースでは、NVIDIA NIMとして導入されたオープンソースのMeta AI Llama Embeddingsを使用しています。
  5. 推論クラスタ: NVIDIA GPU対応のコンピュート・クラスタは、神経推論およびモデル・サービング(NIMS)に使用されます。このモジュールは、Databricksオープン・ソースのDBRX LLMを使用し、次の機能を提供します。
    • 問合せに基づいたチャンクの返却
    • チャンクからのコンテキストの作成
    • チャンクから推論モデルへのコンテキストの供給


このNIMは、NVIDIA L40S、A100、H100、H200などの異なるGPUを装備できるクラスタで実行され、お客様が必要とするパフォーマンスに応じて結果を生成します。これらのGPUは、異なるパフォーマンス・レベル向けに最適化されており、特定のニーズに対応しています。


6. 推論結果を返す: ワークフローの最終ステージが出力です。推論結果が返され、ワークフローが完了します。


Oracle AI


ここでは、完全なOracle AIスタックについて説明します。



OracleのAIスタックは、FusionアプリケーションやNetSuiteからサードパーティ・アプリケーション、業界固有のソリューションまで、様々なアプリケーションとシームレスに統合するように設計されています。AIインフラストラクチャ全体に組み込みのジェネレーティブおよびクラシックAI機能を使用しています。


Oracleでは、AIの使用に対して次のサービスを提供しています。


  • Fusionアプリケーション
  • Fusionアナリティクス
  • NetSuite
  • 業界アプリケーション
  • サードパーティ・アプリケーション: これらのアプリケーションは、組み込みのGenerative AIとクラシックAI機能を統合し、AIテクノロジーを活用した幅広いソフトウェア・ソリューションを示します。


次のAIサービスには、GenAI機能があります。


  • Generative AI: 新たに導入された生成AI機能
  • GenAIエージェント: GenAIを利用するエージェントが新しく導入されました。
  • デジタル・アシスタント: AI主導の仮想アシスタント
  • 音声: 音声認識と処理に焦点を当てたAIサービス
  • 言語: 自然言語処理のためのAIサービス
  • Vision: イメージおよびビデオ分析のためのAIサービス
  • ドキュメント理解: ドキュメント処理と理解のためのAI


次のサービスは、データ・プラットフォームに機械学習(ML)およびGenAI機能を提供します。


  • Oracle Database Vector Search: Oracle Databaseで新たに導入されたベクトル検索機能
  • Autonomous Database Select AI: Oracleの自律型データベースでAI機能を新たに導入
  • MySQL HeatWave StoreおよびGenAI: GenAI機能をMySQL HeatWave Storeと統合
  • データ・サイエンス: データ・サイエンス・ワークフローのプラットフォームとツール
  • Oracle DatabaseにおけるML: Oracle Databaseに組み込まれた機械学習機能
  • MySQL HeatWave AutoML: MySQL HeatWaveでの機械学習の自動化
  • データ・ラベリング: 機械学習のデータにラベルを付けるためのツールとサービス


次のサービスはAIインフラストラクチャを提供します。


  • GPUコンピュート: ベアメタル、仮想マシン(VM)、Kubernetesクラスタなどのさまざまなオプション
  • ストレージ: ブロック、オブジェクト、ファイル・ストレージ、および高パフォーマンス・コンピューティング(HPC)のファイル・システムが含まれます。
  • Superclusters: RoCEv2プロトコル(クラスタ・ネットワークのRDMA)を使用して、最大64K GPUをサポートするクラスタ・ネットワーキング


アプリケーションはAIサービスに接続し、これらのアプリケーションがAIサービスによって提供される機能を使用することを提案します。AIサービスは、データ・プラットフォーム用のMLおよびGenAI上に構築されており、AI機能は、これらのプラットフォームによって提供されるMLおよび生成AI機能を利用していることを示しています。データ・プラットフォームは、基盤となるデータベース中心のアプリケーションとAIインフラストラクチャによってサポートされ、高度なAIおよびML機能をサポートするための高パフォーマンス・コンピューティングとストレージ・インフラストラクチャの基本的役割が強調されています。



NVIDIA推論マイクロサービス


NVIDIA NIMは、AI推論ワークロードのデプロイとスケーリング用に最適化された、モジュール化されたコンテナ化されたサービスです。次の利点があります。


  • スケーラビリティ: 様々なワークロードを処理するためにサービスを簡単に拡張
  • 柔軟性: サービスを個別に導入および更新
  • 効率性: リソース使用率を最適化し、レイテンシを削減


NIMは、開発者の生産性とインフラストラクチャの効率を向上させ、企業が投資を最大化できるようにします。たとえば、NIMでMeta Llama 3-8Bを実行すると、NIMがないときよりも高速インフラストラクチャで最大3倍の生成AIトークンが生成されます。


Oracle Cloud Infrastructure


OCIは第2世代のクラウドで、高いイノベーション、柔軟性、そして他のハイパースケーラやクラウドプロバイダーの中でも最小の総所有コスト(TCO)を備えた差別化されたアプローチを提供します。インフラストラクチャ、プラットフォーム、およびSoftware as a Service(IaaS、PaaS、およびSaaS)にわたるフルスタックのAI戦略を通じて、堅牢なAIおよびMLのイノベーションをサポートします。


OCIには、次の主なハイライトが含まれています。


  • ベアメタルNVIDIA GPUトレーニングと推論 IaaS
  • 高帯域幅(RoCEv2): ノード当たり3200Gbps
  • NVMeストレージ: 1ノード当たり61.4TB、優れたパフォーマンスを実現
  • クラスタ・サイズ: 1-8,000ノード
  • クラスタ内のGPU数: 8~64,000個のNVIDIA GPU



DBRX: 最先端のLLM


DBRXは変圧器ベースのデコーダ専用LLMで、エキスパートのきめ細かい混合(MoE)アーキテクチャを備えており、入力時に360億個がアクティブである1,320億の合計パラメータを備えています。MixtralやGrok-1など、他のオープンなMoEモデルよりも優れたパフォーマンスを発揮します。これは、より小規模なエキスパートの数が増え、モデルの品質が向上したためです。


DBRXは、回転式位置エンコーディング(RoPE)、ゲート付き線形単位(GLU)、グループ化された問合せアテンション(GQA)などの高度な手法を使用します。これは、最適なパフォーマンスを実現するために、GPT-4トークナイザを使用して、テキストおよびコードデータの12兆トークンで事前トレーニングされました。



デルタ共有: 安全なデータ・コラボレーション


Delta Sharingは、組織およびプラットフォーム間での安全でシームレスなデータ共有のためのオープンプロトコルであり、信頼性とパフォーマンスのためにDelta Lakeと協力しています。次のコア概念を優先します。


  • プロバイダ: データを共有するエンティティ
  • 共有: デルタ・レイク表の表の論理的なグループ化
  • 受信者: 共有データにアクセスする個人


デルタ共有の主な利点は、ライブ・データ共有、データ・コピーなし、プラットフォームに依存しない、セキュアなガバナンスです。


OCIでのデプロイメント・プロセス


OCIへのDBRX LLMのデプロイメントには、次のステップが含まれます:


  1. 初期設定
    • 高パフォーマンスのコンピュート・インスタンスのプロビジョニング
    • スケーラブルなストレージ・ソリューションの構成
    • セキュア・ネットワーキングの設定
  2. NVIDIA NIMとの統合
    • DockerとKubernetesを使用したコンテナ化
    • 様々な推論タスク用のマイクロサービスのデプロイおよびスケーリング
  3. 技術的な詳細
    • 自動スケーリングとロード・バランシングによるスケーラビリティ
    • 効率性とパフォーマンスの最適化


主なメリット


NVIDIA NIMを使用してOCIにDBRX LLMをデプロイすると、次の利点があります。


  • スケーラビリティ: 様々なワークロードを処理するシームレスなスケーラビリティ
  • 効率性: 高性能、リアルタイム推論サービス
  • セキュリティ: 包括的なセキュリティ機能を備えた堅牢なプラットフォーム


OCI北米クラウド・エンジニアリングAIソリューション・チームは、APIとterraformを使用してデプロイメント全体を自動化しました。



まとめ


このプレゼンテーションでは、OCIとNVIDIAのAI機能の相乗効果を強調し、この強力な組み合わせによって、大規模なデータと高度なAIワークロードの効率的な処理がどのように促進されるかを強調しました。OCIでの導入プロセスにより、スケーラビリティ、効率性、セキュリティが確保されるため、最先端のAIソリューションを活用したい企業にとって理想的な選択肢となります。


詳細およびOracle Cloud InfrastructureでNVIDIA NIMを試してみるには、NVIDIA AIおよびOracle Cloud Infrastructureを参照してください。


コメント

このブログの人気の投稿

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle Cloudのデータベースをオブジェクト・ストレージにバックアップする3つの方法 (2021/12/13)