NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26)

https://blogs.oracle.com/cloud-infrastructure/post/dbrx-llms-oci-nvidia-nim-delta-sharing

投稿者：Sanjay Basu PhD | Senior Director - Gen AI/GPU Cloud Engineering

最近のDatabricks Data+AI Conferenceでは、NVIDIA Inference Microservices (NIM)とDelta Sharingを使用して、Oracle Cloud Infrastructure (OCI)にDBRX大規模言語モデル(LLM)をデプロイしました。このブログ投稿では、アーキテクチャ、利点およびデプロイメント・プロセスに焦点を当てて、プレゼンテーションの主なポイントとハイライトをまとめています。

クラシック検索拡張生成(RAG)ワークフローで使用するために、異なるデータソースからOCIにデータを集計するエンド・アーキテクチャから始めましょう。OCI上のNVIDIA L40SでNVIDIA NIMサービスを使用してデプロイされたDBRX LLMを使用しています。また、OCIで実行されているNVIDIA H100のワークフローも検証しました。

RAGを使用したデータの集計

この図は、OCIサービス内のデータ処理、埋込み、問合せおよび推論に関連するワークフローの概要を示しています。このワークフローでは、データの処理、埋込みの作成、ベクトル・データの格納および問合せ、およびOCI内の高度なNVIDIA GPUを使用した推論を行うための様々なコンポーネントの統合が強調表示されます。これは、次の段階を通過します。

データソース: ワークフローは、インターネット、OCI FastConnect、OCI-Azure Interconnect、IPSec VPNなど、様々なネットワーク・トランスポートを介してアクセスできる様々なソースからのデータを集約することから始まります。次に、リージョン内またはリージョン間のVCNピアリングでOCIバックボーンを使用します。このワークフローでは、Databricks Delta Sharingプロトコルを使用しています。データを共有するには、デルタ共有を使用します。デルタ共有では、バッチまたはストリーミングのデータ取り込みが可能です。デルタ共有には、レガシー・データ・レプリケーション・サービスよりも利点があります。これについては、この記事の後半で説明します。
データ処理: 取り込まれたデータは、Dense Computeインスタンスによって処理されます。このステップでは、データからチャンク埋込みを作成します。この関数にはOCI Dense Computeシェイプを使用しています。
Oracleベクトル・データベース: 処理された埋込みおよびチャンクがベクトル・データベースに取り込まれます。ベクトル・データの処理用に設計された特殊なデータベースであるOracle 23aiを使用しています。これらの埋込みに基づいて、問合せが作成されます。
埋込みモデル: 埋込みモデルによってチャンク埋込みと問合せ埋込みが作成され、効率的な問合せおよび取得が容易になります。OCI Generative AIサービスのAPIベースのCohere Embeddingモデルを使用できます。このケースでは、NVIDIA NIMとして導入されたオープンソースのMeta AI Llama Embeddingsを使用しています。
推論クラスタ: NVIDIA GPU対応のコンピュート・クラスタは、神経推論およびモデル・サービング(NIMS)に使用されます。このモジュールは、Databricksオープン・ソースのDBRX LLMを使用し、次の機能を提供します。

問合せに基づいたチャンクの返却
チャンクからのコンテキストの作成
チャンクから推論モデルへのコンテキストの供給

このNIMは、NVIDIA L40S、A100、H100、H200などの異なるGPUを装備できるクラスタで実行され、お客様が必要とするパフォーマンスに応じて結果を生成します。これらのGPUは、異なるパフォーマンス・レベル向けに最適化されており、特定のニーズに対応しています。

6. 推論結果を返す: ワークフローの最終ステージが出力です。推論結果が返され、ワークフローが完了します。

Oracle AI

ここでは、完全なOracle AIスタックについて説明します。

OracleのAIスタックは、FusionアプリケーションやNetSuiteからサードパーティ・アプリケーション、業界固有のソリューションまで、様々なアプリケーションとシームレスに統合するように設計されています。AIインフラストラクチャ全体に組み込みのジェネレーティブおよびクラシックAI機能を使用しています。

Oracleでは、AIの使用に対して次のサービスを提供しています。

Fusionアプリケーション
Fusionアナリティクス
NetSuite
業界アプリケーション
サードパーティ・アプリケーション: これらのアプリケーションは、組み込みのGenerative AIとクラシックAI機能を統合し、AIテクノロジーを活用した幅広いソフトウェア・ソリューションを示します。

次のAIサービスには、GenAI機能があります。

Generative AI: 新たに導入された生成AI機能
GenAIエージェント: GenAIを利用するエージェントが新しく導入されました。
デジタル・アシスタント: AI主導の仮想アシスタント
音声: 音声認識と処理に焦点を当てたAIサービス
言語: 自然言語処理のためのAIサービス
Vision: イメージおよびビデオ分析のためのAIサービス
ドキュメント理解: ドキュメント処理と理解のためのAI

次のサービスは、データ・プラットフォームに機械学習(ML)およびGenAI機能を提供します。

Oracle Database Vector Search: Oracle Databaseで新たに導入されたベクトル検索機能
Autonomous Database Select AI: Oracleの自律型データベースでAI機能を新たに導入
MySQL HeatWave StoreおよびGenAI: GenAI機能をMySQL HeatWave Storeと統合
データ・サイエンス: データ・サイエンス・ワークフローのプラットフォームとツール
Oracle DatabaseにおけるML: Oracle Databaseに組み込まれた機械学習機能
MySQL HeatWave AutoML: MySQL HeatWaveでの機械学習の自動化
データ・ラベリング: 機械学習のデータにラベルを付けるためのツールとサービス

次のサービスはAIインフラストラクチャを提供します。

GPUコンピュート: ベアメタル、仮想マシン(VM)、Kubernetesクラスタなどのさまざまなオプション
ストレージ: ブロック、オブジェクト、ファイル・ストレージ、および高パフォーマンス・コンピューティング(HPC)のファイル・システムが含まれます。
Superclusters: RoCEv2プロトコル(クラスタ・ネットワークのRDMA)を使用して、最大64K GPUをサポートするクラスタ・ネットワーキング

アプリケーションはAIサービスに接続し、これらのアプリケーションがAIサービスによって提供される機能を使用することを提案します。AIサービスは、データ・プラットフォーム用のMLおよびGenAI上に構築されており、AI機能は、これらのプラットフォームによって提供されるMLおよび生成AI機能を利用していることを示しています。データ・プラットフォームは、基盤となるデータベース中心のアプリケーションとAIインフラストラクチャによってサポートされ、高度なAIおよびML機能をサポートするための高パフォーマンス・コンピューティングとストレージ・インフラストラクチャの基本的役割が強調されています。

NVIDIA推論マイクロサービス

NVIDIA NIMは、AI推論ワークロードのデプロイとスケーリング用に最適化された、モジュール化されたコンテナ化されたサービスです。次の利点があります。

スケーラビリティ: 様々なワークロードを処理するためにサービスを簡単に拡張
柔軟性: サービスを個別に導入および更新
効率性: リソース使用率を最適化し、レイテンシを削減

NIMは、開発者の生産性とインフラストラクチャの効率を向上させ、企業が投資を最大化できるようにします。たとえば、NIMでMeta Llama 3-8Bを実行すると、NIMがないときよりも高速インフラストラクチャで最大3倍の生成AIトークンが生成されます。

Oracle Cloud Infrastructure

OCIは第2世代のクラウドで、高いイノベーション、柔軟性、そして他のハイパースケーラやクラウドプロバイダーの中でも最小の総所有コスト(TCO)を備えた差別化されたアプローチを提供します。インフラストラクチャ、プラットフォーム、およびSoftware as a Service(IaaS、PaaS、およびSaaS)にわたるフルスタックのAI戦略を通じて、堅牢なAIおよびMLのイノベーションをサポートします。

OCIには、次の主なハイライトが含まれています。

ベアメタルNVIDIA GPUトレーニングと推論 IaaS
高帯域幅(RoCEv2): ノード当たり3200Gbps
NVMeストレージ: 1ノード当たり61.4TB、優れたパフォーマンスを実現
クラスタ・サイズ: 1-8,000ノード
クラスタ内のGPU数: 8~64,000個のNVIDIA GPU

DBRX: 最先端のLLM

DBRXは変圧器ベースのデコーダ専用LLMで、エキスパートのきめ細かい混合(MoE)アーキテクチャを備えており、入力時に360億個がアクティブである1,320億の合計パラメータを備えています。MixtralやGrok-1など、他のオープンなMoEモデルよりも優れたパフォーマンスを発揮します。これは、より小規模なエキスパートの数が増え、モデルの品質が向上したためです。

DBRXは、回転式位置エンコーディング(RoPE)、ゲート付き線形単位(GLU)、グループ化された問合せアテンション(GQA)などの高度な手法を使用します。これは、最適なパフォーマンスを実現するために、GPT-4トークナイザを使用して、テキストおよびコードデータの12兆トークンで事前トレーニングされました。

デルタ共有: 安全なデータ・コラボレーション

Delta Sharingは、組織およびプラットフォーム間での安全でシームレスなデータ共有のためのオープンプロトコルであり、信頼性とパフォーマンスのためにDelta Lakeと協力しています。次のコア概念を優先します。

プロバイダ: データを共有するエンティティ
共有: デルタ・レイク表の表の論理的なグループ化
受信者: 共有データにアクセスする個人

デルタ共有の主な利点は、ライブ・データ共有、データ・コピーなし、プラットフォームに依存しない、セキュアなガバナンスです。

OCIでのデプロイメント・プロセス

OCIへのDBRX LLMのデプロイメントには、次のステップが含まれます:

初期設定

高パフォーマンスのコンピュート・インスタンスのプロビジョニング
スケーラブルなストレージ・ソリューションの構成
セキュア・ネットワーキングの設定

NVIDIA NIMとの統合

DockerとKubernetesを使用したコンテナ化
様々な推論タスク用のマイクロサービスのデプロイおよびスケーリング

技術的な詳細

自動スケーリングとロード・バランシングによるスケーラビリティ
効率性とパフォーマンスの最適化

主なメリット

NVIDIA NIMを使用してOCIにDBRX LLMをデプロイすると、次の利点があります。

スケーラビリティ: 様々なワークロードを処理するシームレスなスケーラビリティ
効率性: 高性能、リアルタイム推論サービス
セキュリティ: 包括的なセキュリティ機能を備えた堅牢なプラットフォーム

OCI北米クラウド・エンジニアリングAIソリューション・チームは、APIとterraformを使用してデプロイメント全体を自動化しました。

まとめ

このプレゼンテーションでは、OCIとNVIDIAのAI機能の相乗効果を強調し、この強力な組み合わせによって、大規模なデータと高度なAIワークロードの効率的な処理がどのように促進されるかを強調しました。OCIでの導入プロセスにより、スケーラビリティ、効率性、セキュリティが確保されるため、最先端のAIソリューションを活用したい企業にとって理想的な選択肢となります。

詳細およびOracle Cloud InfrastructureでNVIDIA NIMを試してみるには、NVIDIA AIおよびOracle Cloud Infrastructureを参照してください。

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01)

10月 31, 2023

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01) https://database-heartbeat.com/2023/11/01/draining-ac-rac/ はじめに Oracle RACは、Oracle Databaseのスケーラビリティと高可用性を提供します。1つのサーバー(RACノード)に障害が発生した場合、またはメンテナンスのためにオフラインになった場合でも、追加のノードを介してデータベースにアクセスできます。ただし、メンテナンスの開始時に、データの読取りまたは変更に関係なく、一部の作業を実行しているクライアント・セッションはどうなりますか。この作業は中断され、ドレインを実装してアプリケーション・コンティニュイティまたは透過的アプリケーション・コンティニュイティを有効にしないかぎり、エンドユーザーまたはアプリケーションによって再度実行する必要があります。環境 2ノードのOracle RACを例に挙げて、高速アプリケーション通知(FAN)、ドレインおよびアプリケーション・コンティニュイティによってメンテナンス・イベントがエンドユーザーに透過的になる方法を理解しましょう。アプリケーションは、30個のセッションを保持するように構成された接続プールを使用しています。通常の操作通常の操作中は、両方のRACノードが起動し、アプリケーションを実行しています。ロード・バランシング戦略によっては、セッションの数が両方のノード間で異なるか、均等に分散される場合があります。次の図をよりよく視覚化するために、ノード2のノード1および20のセッションに10のセッションがあるとします。セッションは、アイドル状態(接続されているが何もしていない)またはアクティブ状態(リクエストの途中)にできます。リクエストは、データの読取り(SELECT)または操作(INSERT、DELETE、UPDATE)が可能です。ドレインによるサービスの停止ある時点で、システムのメンテナンスが必要になります。2ノードRACがあるため、メンテナンスはローリング方式で、1つのノードを順番に(ほとんどの場合)実行できます。メンテナンスは、たとえば、オペレーティング・システム、Grid Infrastructureまたはデ

このブログを検索

Oracle Cloud Infrastructure Blog(翻訳)