オープン・エージェント仕様を持つ監視可能なポータブル・エージェント: Arize PhoenixおよびOpenInferenceとの統合を発表 (2026/02/27)

オープン・エージェント仕様を持つ監視可能なポータブル・エージェント: Arize PhoenixおよびOpenInferenceとの統合を発表 (2026/02/27)

https://blogs.oracle.com/ai-and-datascience/agent-spec-phoenix-integration

投稿者:Cesare Bernardis | Principal Member of Technical Staff

Damien Hilloulin | Senior Manager

Rhicheek Patra | Senior Director, Oracle AI Database

Sungpack Hong | Vice President, AI Research, Database

Open Agent Spec(略称Agent Spec)は移植性を重視して構築されています。エージェントを一度定義すれば、プロンプト、ツール、ポリシーを書き換えることなく、任意のランタイムで実行できます。チームがエージェントを本番環境に導入する際、次に問題となるのは可観測性です。異なるランタイム間でエージェントが行うすべての決定をどのように把握すればよいのでしょうか?この記事では、Agent SpecがArize PhoenixおよびOpenInferenceと統合され、一貫性がありランタイムに依存しないトレースと評価を実現する方法を説明します。これにより、デバッグを高速化し、変更を安全に比較し、自信を持って運用できるようになります。

エージェントスペックの理由

  • 一度定義すれば、どこでも実行可能: エージェントのツール、システム プロンプト、LLM 設定を一度作成すれば、LangGraph や WayFlow などの互換性のあるランタイムで実行できます。
  • オープン スタンダードに基づいて構築: Agent Spec は OpenTelemetry ベースのインストルメンテーションとシームレスに連携し、ランタイム全体で標準化されたトレースを可能にします。
  • エンタープライズ対応: 移植性と可観測性により、プロンプトを進化させたり、LLM を交換したり、ツールを改訂したりする際にガバナンスを維持しながら、設計、開発、展開の間を行き来できます。

Arize Phoenixを選ぶ理由

Arize PhoenixとOpenInferenceベースのインストルメンテーションを組み合わせることで、たった1回のセットアップで、本番環境レベルのランタイムに依存しない可観測性を実現できます。これにより、サポートされているあらゆるランタイムにおいて、エージェントの行動とその原因を正確に把握できます。AIアプリケーションのトレースを標準化する一連の規約であるOpenInferenceに準拠したPhoenixは、以下の機能を提供します。

  • 明確な親子関係を持つエンドツーエンドのトレース
  • エージェント、LLM、ツールにわたる統合された可視性
  • 完全な入力/出力(システムプロンプトを含む)、ツールの引数、タイミング、および最終応答
  • ランタイムとLLM間で一貫したトレーススキーマにより、コンポーネントを変更してもダッシュボードと評価ハーネスの安定性が維持されます。

この透明性によりデバッグとガバナンスが加速され、複雑な動作 (再試行ロジックやツールの選択など) を検証し、変更を安全に比較することが容易になります。

Phoenixによるワンラインセットアップ

この Medium 記事で実装された Ops Assistant によって発行された Agent Spec トレースの例

ポータブルな Agent Spec 構成を読み込み、インストルメンテーションを一度追加するだけで、サポートされている複数のランタイム間で動作します。Phoenix はどちらの場合でも同じトレーススキーマを認識するため、ランタイムや LLM を切り替えてもダッシュボードと評価ハーネスの一貫性が維持されます。Phoenix は以下の情報を表示します。

  • レイテンシとコストの概要を含むプロジェクトとトレースのリスト
  • エージェントスパン、LLM 生成、ツール実行など、フロー全体を示す実行ツリー
  • プロンプト、ツールの引数/出力、最終的な回答へのドリルダウン

評価とベンチマーク

Phoenixにトレースが取り込まれたら、プログラムによる評価を実行できます。一般的な設定は以下のとおりです。

  • 基本的な出力と構造を確認するためのコードベースの評価ツール(決定論的)
  • 有用性や完全性などの側面を評価するLLMの審査員

インストルメンテーションを変更することなく、単一の評価ハーネスを使用して、同じエージェントを複数のランタイムで実行し、結果を比較できます。

エンタープライズチームにとってこれが重要な理由

  • エージェントが開発から本番環境に移行する際に、エージェントを観察および評価する方法を標準化します。
  • 安全に反復処理: ランタイム、プロンプト、ツール、または LLM プロバイダーを交換し、同じトレース形式と評価ハーネスで動作を比較します。
  • エージェントが実行する各ステップをキャプチャする完全忠実度のトレースを活用して、診断時間を短縮し、信頼性を向上させます。

Getting Started

開始するには、Agent Spec エージェントを OpenInference でインストルメント化し、トレース用に Arize Phoenix を接続し、以下のドキュメントを使用してエンドツーエンドの可観測性を数分で有効にします。

コメント

このブログの人気の投稿

Oracle Database 19cサポート・タイムラインの重要な更新 (2024/11/20)

ミリ秒の問題: BCCグループとOCIが市場データ・パフォーマンスを再定義する方法(AWSに対するベンチマークを使用) (2025/11/13)

OCIサービスを利用したWebサイトの作成 その4~Identity Cloud Serviceでサイトの一部を保護 (2021/12/30)