NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26)
NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26)
https://blogs.oracle.com/cloud-infrastructure/post/dbrx-llms-oci-nvidia-nim-delta-sharing
投稿者:Sanjay Basu PhD | Senior Director - Gen AI/GPU Cloud Engineering
最近のDatabricks Data+AI Conferenceでは、NVIDIA Inference Microservices (NIM)とDelta Sharingを使用して、Oracle Cloud Infrastructure (OCI)にDBRX大規模言語モデル(LLM)をデプロイしました。このブログ投稿では、アーキテクチャ、利点およびデプロイメント・プロセスに焦点を当てて、プレゼンテーションの主なポイントとハイライトをまとめています。
クラシック検索拡張生成(RAG)ワークフローで使用するために、異なるデータソースからOCIにデータを集計するエンド・アーキテクチャから始めましょう。OCI上のNVIDIA L40SでNVIDIA NIMサービスを使用してデプロイされたDBRX LLMを使用しています。また、OCIで実行されているNVIDIA H100のワークフローも検証しました。
RAGを使用したデータの集計
この図は、OCIサービス内のデータ処理、埋込み、問合せおよび推論に関連するワークフローの概要を示しています。このワークフローでは、データの処理、埋込みの作成、ベクトル・データの格納および問合せ、およびOCI内の高度なNVIDIA GPUを使用した推論を行うための様々なコンポーネントの統合が強調表示されます。これは、次の段階を通過します。
- データソース: ワークフローは、インターネット、OCI FastConnect、OCI-Azure Interconnect、IPSec VPNなど、様々なネットワーク・トランスポートを介してアクセスできる様々なソースからのデータを集約することから始まります。次に、リージョン内またはリージョン間のVCNピアリングでOCIバックボーンを使用します。このワークフローでは、Databricks Delta Sharingプロトコルを使用しています。データを共有するには、デルタ共有を使用します。デルタ共有では、バッチまたはストリーミングのデータ取り込みが可能です。デルタ共有には、レガシー・データ・レプリケーション・サービスよりも利点があります。これについては、この記事の後半で説明します。
- データ処理: 取り込まれたデータは、Dense Computeインスタンスによって処理されます。このステップでは、データからチャンク埋込みを作成します。この関数にはOCI Dense Computeシェイプを使用しています。
- Oracleベクトル・データベース: 処理された埋込みおよびチャンクがベクトル・データベースに取り込まれます。ベクトル・データの処理用に設計された特殊なデータベースであるOracle 23aiを使用しています。これらの埋込みに基づいて、問合せが作成されます。
- 埋込みモデル: 埋込みモデルによってチャンク埋込みと問合せ埋込みが作成され、効率的な問合せおよび取得が容易になります。OCI Generative AIサービスのAPIベースのCohere Embeddingモデルを使用できます。このケースでは、NVIDIA NIMとして導入されたオープンソースのMeta AI Llama Embeddingsを使用しています。
- 推論クラスタ: NVIDIA GPU対応のコンピュート・クラスタは、神経推論およびモデル・サービング(NIMS)に使用されます。このモジュールは、Databricksオープン・ソースのDBRX LLMを使用し、次の機能を提供します。
- 問合せに基づいたチャンクの返却
- チャンクからのコンテキストの作成
- チャンクから推論モデルへのコンテキストの供給
このNIMは、NVIDIA L40S、A100、H100、H200などの異なるGPUを装備できるクラスタで実行され、お客様が必要とするパフォーマンスに応じて結果を生成します。これらのGPUは、異なるパフォーマンス・レベル向けに最適化されており、特定のニーズに対応しています。
6. 推論結果を返す: ワークフローの最終ステージが出力です。推論結果が返され、ワークフローが完了します。
Oracle AI
ここでは、完全なOracle AIスタックについて説明します。
OracleのAIスタックは、FusionアプリケーションやNetSuiteからサードパーティ・アプリケーション、業界固有のソリューションまで、様々なアプリケーションとシームレスに統合するように設計されています。AIインフラストラクチャ全体に組み込みのジェネレーティブおよびクラシックAI機能を使用しています。
Oracleでは、AIの使用に対して次のサービスを提供しています。
- Fusionアプリケーション
- Fusionアナリティクス
- NetSuite
- 業界アプリケーション
- サードパーティ・アプリケーション: これらのアプリケーションは、組み込みのGenerative AIとクラシックAI機能を統合し、AIテクノロジーを活用した幅広いソフトウェア・ソリューションを示します。
次のAIサービスには、GenAI機能があります。
- Generative AI: 新たに導入された生成AI機能
- GenAIエージェント: GenAIを利用するエージェントが新しく導入されました。
- デジタル・アシスタント: AI主導の仮想アシスタント
- 音声: 音声認識と処理に焦点を当てたAIサービス
- 言語: 自然言語処理のためのAIサービス
- Vision: イメージおよびビデオ分析のためのAIサービス
- ドキュメント理解: ドキュメント処理と理解のためのAI
次のサービスは、データ・プラットフォームに機械学習(ML)およびGenAI機能を提供します。
- Oracle Database Vector Search: Oracle Databaseで新たに導入されたベクトル検索機能
- Autonomous Database Select AI: Oracleの自律型データベースでAI機能を新たに導入
- MySQL HeatWave StoreおよびGenAI: GenAI機能をMySQL HeatWave Storeと統合
- データ・サイエンス: データ・サイエンス・ワークフローのプラットフォームとツール
- Oracle DatabaseにおけるML: Oracle Databaseに組み込まれた機械学習機能
- MySQL HeatWave AutoML: MySQL HeatWaveでの機械学習の自動化
- データ・ラベリング: 機械学習のデータにラベルを付けるためのツールとサービス
次のサービスはAIインフラストラクチャを提供します。
- GPUコンピュート: ベアメタル、仮想マシン(VM)、Kubernetesクラスタなどのさまざまなオプション
- ストレージ: ブロック、オブジェクト、ファイル・ストレージ、および高パフォーマンス・コンピューティング(HPC)のファイル・システムが含まれます。
- Superclusters: RoCEv2プロトコル(クラスタ・ネットワークのRDMA)を使用して、最大64K GPUをサポートするクラスタ・ネットワーキング
アプリケーションはAIサービスに接続し、これらのアプリケーションがAIサービスによって提供される機能を使用することを提案します。AIサービスは、データ・プラットフォーム用のMLおよびGenAI上に構築されており、AI機能は、これらのプラットフォームによって提供されるMLおよび生成AI機能を利用していることを示しています。データ・プラットフォームは、基盤となるデータベース中心のアプリケーションとAIインフラストラクチャによってサポートされ、高度なAIおよびML機能をサポートするための高パフォーマンス・コンピューティングとストレージ・インフラストラクチャの基本的役割が強調されています。
NVIDIA推論マイクロサービス
NVIDIA NIMは、AI推論ワークロードのデプロイとスケーリング用に最適化された、モジュール化されたコンテナ化されたサービスです。次の利点があります。
- スケーラビリティ: 様々なワークロードを処理するためにサービスを簡単に拡張
- 柔軟性: サービスを個別に導入および更新
- 効率性: リソース使用率を最適化し、レイテンシを削減
NIMは、開発者の生産性とインフラストラクチャの効率を向上させ、企業が投資を最大化できるようにします。たとえば、NIMでMeta Llama 3-8Bを実行すると、NIMがないときよりも高速インフラストラクチャで最大3倍の生成AIトークンが生成されます。
Oracle Cloud Infrastructure
OCIは第2世代のクラウドで、高いイノベーション、柔軟性、そして他のハイパースケーラやクラウドプロバイダーの中でも最小の総所有コスト(TCO)を備えた差別化されたアプローチを提供します。インフラストラクチャ、プラットフォーム、およびSoftware as a Service(IaaS、PaaS、およびSaaS)にわたるフルスタックのAI戦略を通じて、堅牢なAIおよびMLのイノベーションをサポートします。
OCIには、次の主なハイライトが含まれています。
- ベアメタルNVIDIA GPUトレーニングと推論 IaaS
- 高帯域幅(RoCEv2): ノード当たり3200Gbps
- NVMeストレージ: 1ノード当たり61.4TB、優れたパフォーマンスを実現
- クラスタ・サイズ: 1-8,000ノード
- クラスタ内のGPU数: 8~64,000個のNVIDIA GPU
DBRX: 最先端のLLM
DBRXは変圧器ベースのデコーダ専用LLMで、エキスパートのきめ細かい混合(MoE)アーキテクチャを備えており、入力時に360億個がアクティブである1,320億の合計パラメータを備えています。MixtralやGrok-1など、他のオープンなMoEモデルよりも優れたパフォーマンスを発揮します。これは、より小規模なエキスパートの数が増え、モデルの品質が向上したためです。
DBRXは、回転式位置エンコーディング(RoPE)、ゲート付き線形単位(GLU)、グループ化された問合せアテンション(GQA)などの高度な手法を使用します。これは、最適なパフォーマンスを実現するために、GPT-4トークナイザを使用して、テキストおよびコードデータの12兆トークンで事前トレーニングされました。
デルタ共有: 安全なデータ・コラボレーション
Delta Sharingは、組織およびプラットフォーム間での安全でシームレスなデータ共有のためのオープンプロトコルであり、信頼性とパフォーマンスのためにDelta Lakeと協力しています。次のコア概念を優先します。
- プロバイダ: データを共有するエンティティ
- 共有: デルタ・レイク表の表の論理的なグループ化
- 受信者: 共有データにアクセスする個人
デルタ共有の主な利点は、ライブ・データ共有、データ・コピーなし、プラットフォームに依存しない、セキュアなガバナンスです。
OCIでのデプロイメント・プロセス
OCIへのDBRX LLMのデプロイメントには、次のステップが含まれます:
- 初期設定
- 高パフォーマンスのコンピュート・インスタンスのプロビジョニング
- スケーラブルなストレージ・ソリューションの構成
- セキュア・ネットワーキングの設定
- NVIDIA NIMとの統合
- DockerとKubernetesを使用したコンテナ化
- 様々な推論タスク用のマイクロサービスのデプロイおよびスケーリング
- 技術的な詳細
- 自動スケーリングとロード・バランシングによるスケーラビリティ
- 効率性とパフォーマンスの最適化
主なメリット
NVIDIA NIMを使用してOCIにDBRX LLMをデプロイすると、次の利点があります。
- スケーラビリティ: 様々なワークロードを処理するシームレスなスケーラビリティ
- 効率性: 高性能、リアルタイム推論サービス
- セキュリティ: 包括的なセキュリティ機能を備えた堅牢なプラットフォーム
OCI北米クラウド・エンジニアリングAIソリューション・チームは、APIとterraformを使用してデプロイメント全体を自動化しました。
まとめ
このプレゼンテーションでは、OCIとNVIDIAのAI機能の相乗効果を強調し、この強力な組み合わせによって、大規模なデータと高度なAIワークロードの効率的な処理がどのように促進されるかを強調しました。OCIでの導入プロセスにより、スケーラビリティ、効率性、セキュリティが確保されるため、最先端のAIソリューションを活用したい企業にとって理想的な選択肢となります。
詳細およびOracle Cloud InfrastructureでNVIDIA NIMを試してみるには、NVIDIA AIおよびOracle Cloud Infrastructureを参照してください。
コメント
コメントを投稿