本番グレードのGenAIソリューション向けのOKEでのLLMのホスティングとスケーリング (2024/11/21)

本番グレードのGenAIソリューション向けのOKEでのLLMのホスティングとスケーリング (2024/11/21)

https://blogs.oracle.com/cloud-infrastructure/post/hosting-and-scaling-llms-on-oke

投稿者: Subhankar Sahu | IT Director

Kiran Kumar Vemula | Principal Consultant

Rao Nelakurti | Principal Application Engineer



大規模言語モデル(LLM)は、世界中の業界に革命をもたらしています。カスタマー・サービス・ワークフローの変革から医療診断の推進、コンテンツ作成の推進に至るまで、LLMは自動化、パーソナライズ、意思決定の新たな次元を開拓しています。企業が競争力を維持するために生成AI(GenAI)を採用するにあたり、特に現実世界のアプリケーションにLLMを導入する際には、スケーラブルで高性能なインフラストラクチャに対する需要が高まっています。


ハイパースケーラやその他の大規模なクラウド・プロバイダはLLM推論のためのマネージド・サービスを提供していますが、これらのモデルのスケーリングには大きなコストがかかる可能性があります。最先端の機能と幅広い一般的な知識を提供するが、1.8兆のパラメータを持つGPT-4など、最先端の大規模なモデルでは、多くの場合、強力な計算能力と専門的なGPUが必要であり、大規模な運用にはコストがかかります。対照的に、Llama 3のような小規模なモデルでは、パラメータの範囲は1Bから8Bまでであり、パフォーマンスとリソースの効率のバランスをとり、ハードウェアのコストをかけずに堅牢な機能を提供します。さらに、リアルタイム推論や、低レイテンシとコスト効率が優先される状況などのエンタープライズ・ユース・ケースでは、特にllama.cppのような最適化されたフレームワークを使用して、これらの小規模なモデルをCPUで実行すると、非常に効果的です。


本記事では、OCI Kubernetes Engine(OKE)上でLLM(特にMetaのLlama 3モデル)をホスティングおよびスケーリングするための、効率的でコスト効率の高いアプローチを探ります。また、APIレート制限、自動スケーリング、パフォーマンス・テスト、堅牢な監視ツールによる可観測性など、本番グレードのGenAIソリューションのデプロイに必要な重要なインフラストラクチャ・コンポーネントについても検討します。



ソリューション・アーキテクチャ



このアーキテクチャでは、デプロイメントに対して次の個別のLLM推論オプションが提供されます。


  • NVIDIA A10 GPUノード・プールでのvLLM推論: このオプションは、NVIDIA A10 GPU上でLlama 3.1 8BおよびLlama 3.2 1Bモデルを実行しているvLLMコンテナを使用します。
  • A1 CPUノード・プールのAmpere最適化llama.cpp: ここでは、同じLlamaモデルが、llama.cppコンテナを介してAmpere A1 CPUでホストされ、さらにコスト効率を上げるために最適化されています。


GPUとCPUの両方の推論オプションを提供することで、組織は特定のユースケースに最も効果的な選択肢を評価できます。このアプローチの柔軟性により、精度への影響を最小限に抑えながら高いスループットを実現し、多様なワークロードで最適なパフォーマンスを実現できます。


HorizontalPodAutoscaler (HPA)およびクラスタ・オートスカラーは、Prometheusで監視されているように、リアルタイムのスループットやその他の関連メトリックに基づいてポッド・レプリカおよびワーカー・ノード・プールを自動的に調整することで、スケーラビリティをさらに強化します。Grafanaはインフラストラクチャ・パフォーマンスの可視化に使用されますが、OpenCostはOKEクラスタのコスト割当ての追跡および管理に役立ちます。


最後に、推論モデルへのAPIアクセスは、OCIロード・バランサ・アズ・ア・サービス(LbaaS)とOCI APIゲートウェイを通じて管理され、安全で信頼性の高いAPIエンドポイントを確保するのに役立ちます。



OCI API Gatewayを使用したレート制限APIコール


AIインフラストラクチャを拡張して複数のクライアント・アプリケーションをサポートするためには、APIコールの処理方法を管理することが非常に重要です。適切なレート制限がないと、システムが過負荷になり、セキュリティの脆弱性が生じ、ユーザー・エクスペリエンスが低下する可能性があります。


OCI API Gatewayを使用すると、使用計画および割当てを強制することで、GenAI APIを管理および保護できます。この方法は、認可されたユーザーのみがモデルにアクセスできるようにすると同時に、負荷のバランスをとり、悪用を防ぐ方法を提供します。API Gatewayを使用すると、顧客のニーズに基づいて使用計画を調整し、柔軟性とセキュリティのもう1つのレイヤーを追加することで、APIへのアクセスを制御できます。



ポッド、GPUおよびCPUノード・プールの自動スケーリング


変動する需要を満たすために、Kubernetes HPAは、観測されたメトリックに基づいてアクティブなポッドの数を自動的に調整します。この調整は、需要が急速に変化する可能性がある大規模LLMを提供する場合に特に重要です。


vLLMsの場合、監視する主要なメトリックはvllm:num_requests_waitingです。これは、GPU容量などのシステム・リソースが十分に利用されたときにキューに入れられるリクエストの数を追跡します。このメトリックに基づいてポッドおよび基礎となるGPUまたはCPUノード・プールをスケーリングすることで、インフラストラクチャがパフォーマンスを犠牲にすることなくピーク・ロードを処理できるように支援します。


HPAでは、シームレスなスケーリングが可能になり、コンピュート・リソースとモデル・デプロイメントの両方が様々なワークロードに最適化されます。



可観測性とコストに関するダッシュボード


本番グレードのGenAIデプロイメントを管理するには、効果的な可観測性が重要です。このソリューションでは、PrometheusおよびGrafanaスタックを使用して、インフラストラクチャとモデルの両方のパフォーマンスを包括的に監視および可視化します。このスタックは、APIゲートウェイの統計を含む重要なOCIメトリックを視覚化し、Grafana用のOCIメトリック・プラグインを使用して、使用パターンを追跡し、潜在的なボトルネックを特定するのに役立ちます。


また、Kubernetesコスト監視のためのベンダー・ニュートラルなオープン・ソース・ツールであるCloud Native Computing Foundation(CNCF)であるOpenCostも統合しました。このツールを使用すると、リソースの消費方法が透明になり、予算を効果的に管理できます。また、Time to First Token (TTFT)、Intertoken Latency (ITL)、Total Throughputなどの特定のLLMパフォーマンス指標も追跡します。これは、モデルのパフォーマンスを評価し、推論時間やスループットに関するリアルタイムのフィードバックを提供します。


これらの可観測性ツールにより、チームはAIインフラストラクチャのパフォーマンスを監視するだけでなく、LLM推論の財務的影響を追跡できるため、コストを管理しながら効率的にスケーリングできます。



LLMPerfを使用したパフォーマンス・テスト


オラクルのソリューションがパフォーマンス要件と精度要件の両方を満たしていることを確認するために、LLMのパフォーマンスを評価するために特別に設計されたベンチマーク・スイートであるLLMPerfを使用しました。LLMPerfには、次のテストが含まれます。


  • 負荷テスト: さまざまな負荷条件下でLLMモデルのパフォーマンスを評価し、応答時間を損なうことなく本番トラフィックを処理できるようにします。
  • 正確性テスト: 最適化やスケーリングによる品質の低下なしに、モデルが正確な結果を提供していることを確認するのに役立ちます。


次のユースケースなど、様々な構成をテストしました。


  • ユースケース1: チャットボット、推論サーバー: llama.cpp、モデル: Meta-Llama3.1-8B_Instruct、量子化: Q8R16、入出力トークン: それぞれ100。
  • ユースケース2: Retrieval-Augmented Generation (RAG)、推論サーバー: vLLM、モデル: Meta-Llama3.2-1B_Instruct、量子化: FP16、入力トークン: 2,000、出力トークン: 200。


TTFT、ITL、トークン/秒のスループットなどの主要指標を含むパフォーマンス結果を取得および分析し、様々なユース・ケースに対するシステムの全体的なパフォーマンスと適合性を評価しました。



次の図は、パフォーマンス・テストの結果の例を示しています。





まとめ


本記事では、OKEにスケーラブルな本番対応のLLMインフラストラクチャを導入し、コスト効率と高パフォーマンスのバランスをとる方法を紹介しました。OCIのお客様は、GPUとCPUの両方のオプションを提供することで、AI導入を最適化し、より少ない計算リソースで優れた成果を達成できます。統合された可観測性、コスト監視、インテリジェントなスケーリングにより、このアプローチにより、企業は生成AIソリューションを自信を持って導入でき、進化し続けるAI環境において俊敏性、コスト効率、競争力を維持できます。


超低レイテンシと高パフォーマンスの推論が重要なシナリオでは、データとセキュリティの制御を強化するとともに、概説されたステップが強固な基盤となります。より大規模なモデルやより強力なGPUへのアクセスを必要とするより要求の厳しいユース・ケースとして、Oracle Cloud Infrastructureの生成AIサービスは、これらのニーズを満たす、より高度なスケーラビリティ・オプションを提供します。




詳細は、次のリソースを参照してください。

コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)