NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26)
NVIDIA NIMおよびデルタ共有によるOracle Cloud InfrastructureでのDBRX LLMのデプロイ (2024/06/26) https://blogs.oracle.com/cloud-infrastructure/post/dbrx-llms-oci-nvidia-nim-delta-sharing 投稿者: Sanjay Basu PhD | Senior Director - Gen AI/GPU Cloud Engineering 最近のDatabricks Data+AI Conference では、NVIDIA Inference Microservices (NIM)とDelta Sharingを使用して、Oracle Cloud Infrastructure (OCI)にDBRX大規模言語モデル(LLM)をデプロイしました。このブログ投稿では、アーキテクチャ、利点およびデプロイメント・プロセスに焦点を当てて、プレゼンテーションの主なポイントとハイライトをまとめています。 クラシック検索拡張生成(RAG)ワークフローで使用するために、異なるデータソースからOCIにデータを集計するエンド・アーキテクチャから始めましょう。OCI上のNVIDIA L40SでNVIDIA NIMサービスを使用してデプロイされたDBRX LLMを使用しています。また、OCIで実行されているNVIDIA H100のワークフローも検証しました。 RAGを使用したデータの集計 この図は、OCIサービス内のデータ処理、埋込み、問合せおよび推論に関連するワークフローの概要を示しています。このワークフローでは、データの処理、埋込みの作成、ベクトル・データの格納および問合せ、およびOCI内の高度なNVIDIA GPUを使用した推論を行うための様々なコンポーネントの統合が強調表示されます。これは、次の段階を通過します。 データソース: ワークフローは、インターネット、OCI FastConnect、OCI-Azure Interconnect、IPSec VPNなど、様々なネットワーク・トランスポートを介してアクセスできる様々なソースからのデータを集約することから始まります。次に、リージョン内またはリージョン間のVCNピアリングでOCIバックボーンを使用します。