推論からRAGへ: 効率的な生成AIアプリケーション導入のためのCPUの選択 (2024/06/28)

推論からRAGへ: 効率的な生成AIアプリケーション導入のためのCPUの選択 (2024/06/28)

https://blogs.oracle.com/ai-and-datascience/post/inference-rag-cpus-efficient-generative-ai

投稿者:Amar Gowda | Sr. Principal Product Manager

Coco Liu | Principal Product Manager


以前のブログリリースでは、CPUが、サブ15B LLM推論ワークロードを実行するためのグローバルに利用可能なコストパフォーマンスの高いオプションであることを実証しました。Ampere ARM 64 CPUは、強化されたモデルの重みを処理し、スレッドの効率を管理し、新しいコンピュート・カーネルを構築する能力を向上させることで、Ampere ComputingとOracle Cloud Infrastructure(OCI)は、現在のアップストリームのllama.cppオープンソース実装で最大152%のパフォーマンス向上を実現し、32の同時リクエストで1秒当たり158トークンに変換されます。


このブログ投稿では、ベクトル埋め込みによる検索拡張生成(RAG)のサポートにおけるCPUの価値をさらに探ります。GitHubおよびDockerハブ・リポジトリにコンテナと例を公開しました。有効になっているシナリオと、本番対応アプリケーションを効率的に構築する方法については、次の項を参照してください。



CPUにベクトル埋め込みがあるRAG

RAGは、カスタム・データを使用してLLMレスポンスをカスタマイズする一般的な方法です。ほとんどの企業は、事前にトレーニングされた大規模言語モデル(LLM)から始めて、LLMモデル全体をファインチューニングすることなく、ビジネスに関連するデータを使用して応答を強化します。現在、RAGは、柔軟性と実装の容易さを考慮して、急速に進化するデータ環境におけるモデルの関連性を高めるためにAIエンジニアが使用する一般的な技術です。RAGを実行するには、企業はまずベクトル埋め込み戦略を特定する必要があります。埋込みの使用は、データを表す方法です。たとえば、PDFやテキスト・ファイルなどの入力データを取得し、セマンティック関係を持つ数値形式に変換します。数値形式のこれらのベクトルは、Oracle 23 AIやChroma DBなどのベクトル・データベースに格納され、タスクを実行するには埋込みに特化したLLMモデルが必要です。埋め込みLLMモデルは小規模(1 GB未満)であることが多いため、CPUはコストとエネルギー効率に優れたインフラストラクチャの選択肢となります。最も人気のある埋め込みモデルについては、Hugging Faceリーダーボードを参照してください。


Ampere AIチームの6月のソフトウェア・リリースの一環として、LangChainの完全なサポートとして、Chroma DBをベクトル・データベースとして使用するLlama索引ベースのRAGの例がリリースされました。次のワークフロー図に例を示します。




パフォーマンス結果: CPUでの埋込みモデルの実行

最適化されたAmpere A1 CPUを使用して、幅広いベンチマークを実行しました。80のA1コアを使用して、1 GBの埋込みテキスト・データを7分未満で処理できました。これは、10 GBのデータ・ベクトル化に対して約1.4ドルに変換されます。Ampere A1の適切なサイズのコンピュートと世界規模の可用性により、OCI Computeインスタンスを任意のリージョンにデプロイし、埋め込みのニーズに基づいてCPU容量を動的にスケーリングできます。次の計算では、Ampere A1の1024バッチ・サイズで、Hugging Faceで最もダウンロードされたOOS埋込みモデルであるall-MiniLM-L6-v2を使用します。



CPU cores4816326480
Throughput (MB/min)714.52958116145


お客様の声

イノベーションへの継続的な取り組みの一環として、生成AIの分野におけるCPUの価値を引き出すために、OCIとAmpere Computingは、お客様とエコシステムパートナーとのシナリオ・サポートの拡大に積極的に取り組んでいます。





「Lampiでは、大規模な本番環境におけるAI導入の効率性と持続可能性に深く取り組んでいます。多くのビジネス・プロセスでGPUよりもCPUを使用するハイブリッド・アプローチにより、OCIとAmpere Computingとのコラボレーションが貴重になります。実際、GPUのパフォーマンスはライブ推論と実行速度に優れていますが、多くのビジネス・ワークフローは即時推論を必要とせず、RAGアプリケーションを含む非同期の方法でAIで効率的に管理できることを考慮して、多くのAIタスクをよりエネルギー効率の高いCPUに割り当てることができると確信しています。これを説明するために、OCI上でAmpere A1で動作する当社のプラットフォームでは、推論的なAIエージェントが、RAGパイプラインを介して複数のクエリを含む包括的な市場分析をわずか5分31秒で行えるようになりました。GPUでも、エージェント・ワークフローは、通常、複数の検索を実行するエージェントからの推論の数を考慮して、回答を得るために必要な時間を長くします。同様に、CPU上で動作する教師ありAIエージェントは、月次ポートフォリオ分析、パフォーマンス・レビュー、転写分類、顧客フィードバック分析、市場調査など、RAGに基づいて冗長な週次タスクを自律的に実行するように想定できます。AIとコンピューティングの新時代の瀬戸際に立つ中で、AI業界と企業がコンピューティングパワーをより効率的に割り当てるための青写真として協力していると考えており、環境保全に妥協することなく技術の卓越性を達成できることが実証されています。Guillaume Couturas、LampiのCEO。Lampiのオファリングの詳細は、今すぐLampiのWebサイトにアクセスするか、今後登場するmonのOCI Marketplaceを介してLampiのオファリングの詳細についてお問い合わせください。





「Wallarooは、ハードウェアやインフラストラクチャの操作なしで、Ampereに直接、HuggingFaceボードに埋め込むモデルの導入と管理をネイティブに行うことができます。さらに、Wallarooの推論ワークロード自動化機能と統合ツールキットは、今日のほとんどのベクトル・データベースをサポートし、新しいデータが利用可能になると、より多くのコンテキストと埋込み、オンデマンドおよびスケジュールでベクトル・データベースをエンリッチします。その結果、本番環境でLLMを構築およびデプロイするデータ・サイエンティストとAIエンジニアは、厳しいフィードバック・ループを確保し、運用上の負担を抑えながら本番環境で稼働するLLMの品質を継続的に向上させることができます。来月には、ライブ推論エンドポイントを含む完全なRAG LLMソリューションを公開し、ベクトル・データベースを使用してリアルタイムのチャットボットのユースケースとコンテキスト・データベースのエンリッチメントを強化します。AmpereとOracleの23aiでのllama-cppの完全な統合を活用して、WallarooとOCIのデータおよびAIエコシステムとの互換性を確保し、運用効率を強調する予定です。統合の実現。」- Wallarooの製品担当バイス・プレジデント、Younes Amar氏、Wallarooの提供の詳細、OCIへの導入の合理化、今すぐWallarooのOCI Marketplaceのエンタープライズ・プランチーム・プランをご覧ください。


これらの証言は、生成AIの民主化を支援し、この技術をコスト効率の高い方法ですべての人に利用できるようにするために、Ampereとの共通のコミットメントを強調しています。



Getting-started


OCIでAmpereの使用を開始するために、既存のお客様は、Oracle LinuxとUbuntuの両方のサポートにより、Oracle Cloud MarketplaceでカスタムOSイメージを起動できます。イメージは、Llama 3 8BなどのOSS LLMをAmpereインスタンスにデプロイおよび検証するのに役立つチャットUIを含むアプリケーションにバンドルされています。A1への埋込みワークロードの場合は、LangチェーンまたはLlama索引を使用してカスタム・テキストベースのデータセットをベクトル化し、それを使用してLlama 2 7B LLMモデルの結果を拡張する方法のエンドツーエンドの例に従います。GitHubリポジトリで公開されているベンチマーク・スクリプトも検索できます。


Ampere A1および360 GBメモリの最大3か月分のOCIクレジットを提供しており、2024年12月31日より前にクレジットで終わるAmpere A1フレックスシェイプでのAIワークロードの検証を支援しています。Oracle Cloud Infrastructureを初めて利用する場合は、営業担当者と協力してクレジットを入手するか、登録してください。



詳細は、次のリソースを参照してください。

コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)