HeatWaveスケールアウト、ハイパフォーマンスの類似性検索 (2024/08/20)

HeatWaveスケールアウト、ハイパフォーマンスの類似性検索 (2024/08/20)

https://blogs.oracle.com/mysql/post/heatwave-scaleout-high-performant-similarity-search

投稿者:Mandy Pang | Senior Principal Product Manager

Nitin Kunal | Director of Software Development


HeatWaveスケールアウト、ハイパフォーマンスの類似性検索


企業は、PDFやHTML形式のドキュメントなど、非構造化データの急増に伴い、前例のない課題に直面しています。企業は、事業運営、意思決定、ユーザー・エクスペリエンスのために、この膨大な量の非構造化データを分析するために、意味のあるインサイトを抽出し、イノベーションを推進するために、類似性検索などの生成AIの高度な検索技術に注目しています。



類似性検索の必要性


従来のキーワードベースの検索では、コンテキストの欠如のために関連した結果を提供できないことがよくあります。例えば、あなたが「優秀な科学者」を探しているなら、「ノーベル賞受賞物理学者」に関する結果が得られないかもしれません。


類似性やセマンティック検索などの高度な検索技術により、機械学習を使用して格納された情報の背景を理解することでギャップを埋めます。このような情報は、通常、ベクトル・ストアに格納され、データはベクトル埋込み(ベクトル)と呼ばれる数値表現に変換されます。ベクトルは、データのコンテキストと、他のデータとの関係を取得します。このデータには、テキスト、ビデオ、オーディオなどがあります。



ベクトルは、多次元のベクトル空間の点です。各点は、対応するデータのベクトル埋め込みを表します。セマンティックな意味で類似するデータは、ベクトル空間でより近くなります。前述の例を使用すると、ユーザーが「優秀な科学者」を検索すると、類似性検索で「ノーベル賞」、「マリー・キュリー」、「マックス・プランク」などの関連結果が返されます。意味におけるこの類似性は、データのコンテキストから導出され、これらのデータのベクトル埋込み間の小さな距離で表されます。




HeatWaveでの類似性検索


HeatWaveは、構造化データ、半構造化データおよび非構造化データの高いスケーラビリティとパフォーマンスを実現するために設計された、革新的で大規模にパラレルなインメモリー・ハイブリッド列処理エンジンです。



HeatWaveベクトル・ストア、HeatWaveデータベース内埋込み生成およびHeatWave処理エンジンを使用すると、HeatWaveは、データ・レイク、データベースおよびベクトル・ストアにわたる強力でインテリジェントな検索アプリケーションを構築するための、豊富な類似性検索機能セットを提供します。


非構造化データを処理するために、HeatWaveでは、ベクトル埋込みの格納および管理に使用されるネイティブVECTORデータ型が導入されています。多次元空間におけるベクトル間の類似性を測定する新しいベクトル距離関数がサポートされるようになった。たとえば、ユークリッド距離は、多次元空間の2つのベクトル間の直線距離を測定します。




予測可能で正確な回答


HeatWaveハイブリッド列エンジンの利点の1つは、分析問合せ処理で高パフォーマンスを実現するために索引に依存しないことです。ベクトルストアにストレージの埋め込みを作成し、類似性検索を処理する場合も同様です。HeatWaveは、類似性検索に対して全表スキャンを実行します。これにより、検索結果は常に予測可能で正確になります。


Aurora Postgresなどの他のソリューションでは、クエリーのパフォーマンスを向上させるためにインデックスが必要ですが、検索結果が正確であることは保証されず、インデックスが複雑なクエリに特に適用されない可能性があるため、パフォーマンスは予測できません。





ハイパフォーマンス


ベクトル埋込みはHeatWaveハイブリッド列形式でネイティブに格納されるため、ベクトルおよび類似性検索はHeatWaveインメモリー処理エンジンで処理できます。これにより、HeatWaveは、単一ノードでのニア・メモリー帯域幅処理で非常に優れたパフォーマンスを実現できます。


Snowflake、Databricks、Google BigQuery、Aurora Postgresと比較して、HeatWaveははるかに高速で、最高の価格性能を提供します。




高い拡張性


HeatWaveは、単一ノード内で類似性検索を非常に高速に実行するだけでなく、ノード間でも適切にスケーリングします。ユーザーは、次に示すようにクラスタ・サイズを増やすことで、類似性検索問合せのパフォーマンスを向上できます。




構造化、半構造化データおよびベクトル・ストアにわたる問合せ


PDFファイルなどの非構造化データを構造化リレーショナル形式に収集および変換する機能は、データベース内に直接埋め込みを生成するために重要です。これにより、構造化データと非構造化データの組合せに対する高度なSQL問合せが可能になります。


オブジェクト・ストアにPDFとして格納されたWikipedia記事のリポジトリがあるシナリオを考えてみます。これらのドキュメントには豊富な情報が含まれていますが、リレーショナル問合せのネイティブ・フォーマットではすぐには使用できません。HeatWaveベクトル・ストアを使用すると、これらのPDFをコンテンツのセマンティック・エッセンスをカプセル化する埋込みに変換し、ベクトルとしてリレーショナル表に格納できます。このプロセスでは、記事内の豊富な情報が保持されるだけでなく、従来のリレーショナル・データと並行して問合せ可能な形式に変換されます。


ここで、ユーザー・プロファイルのリレーショナル・データベースをHeatWave内に保持するユーザーを考えてみます。HeatWaveの機能を活用することで、ユーザーは、ユーザープロファイルからのリレーショナルデータをウィキペディアの記事から作成されたベクトルストアデータと結合する高度なクエリを実行できます。たとえば、ユーザーの履歴プリファレンスに基づいて記事を推奨するために、HeatWaveは、ユーザー・プロファイル・データと記事の埋込み間のベクトル距離を効率的に計算できるため、関連性の高い推奨事項が容易になります。これにより、データが異なるデータ・ソースおよび形式からのものであると考えると、すぐにわかりにくい相関関係やインサイトを簡単に見つけることができます。


HeatWaveの独自の機能を活用することで、ユーザーは多様なデータ形式の統合を必要とする複雑なアプリケーションの問題を解決できます。



HeatWave類似性検索の例


次の例では、WikipediaのファイルがHeatWaveベクトル・ストアにロードされ、埋込みが作成されると想定しています。


例1: EUCLIDEAN距離関数を使用して、Wikipediaで最もよく似ている10個の記事を文字列"..."で検索します。


mysql> SELECT id, title FROM dbpedia ORDER BY DISTANCE(emb, '...', 'EUCLIDIAN') LIMIT 10;


例2: EUCLIDEAN距離関数を使用して、記事テキストが文字列パターン"イタリア語の発音:"と一致しない文字列"..."に、Wikipediaで最も近い10の記事を検索します。これらのタイプの問合せは、1つ以上のフィルタ句を適用した後に推奨事項が行われる推奨システム・アプリケーションでも非常に人気があります。HeatWaveは、ハイブリッド列データ・レイアウトおよび大規模なパラレル・アーキテクチャにより、このような問合せの実行に非常に効率的です。


mysql> SELECT id, title FROM dbpedia

              WHERE text NOT LIKE '%Italian pronunciation:%'

              ORDER BY DISTANCE(emb, '...', 'EUCLIDIAN') LIMIT 10;


例3: 記事がタイトルでグループ化され、ユーザー入力文字列からの最小距離がグループごとに計算されるWikipediaの記事を検索します。この問合せには、より複雑な集計関数が含まれます。


mysql> SELECT title, MIN(DISTANCE(emb, @qemb))

              FROM dbpedia GROUP BY 1 ORDER BY 2 LIMIT 10;



まとめ


HeatWaveは、高度な高性能の類似性検索機能を活用することで、企業が非構造化データの爆発的な処理に革命をもたらしています。PDFやHTMLドキュメントなどの非構造化データを構造化リレーショナル形式に変換し、機械学習によって生成されたベクトル埋込みと統合することで、HeatWaveは、正確でコンテキスト対応の高度なセマンティック検索機能を提供します。HeatWaveの革新的で大規模に並行したインメモリ・ハイブリッド列処理エンジンは、構造化データ、半構造化データ、非構造化データ全体で高いスケーラビリティとパフォーマンスをサポートしているだけでなく、インデックスに依存することなく予測可能で正確な検索結果を保証します。Snowflake、Databricks、Google BigQuery、Aurora Postgresなどのソリューションと比較して、より高速でコスト効率に優れたHeatWaveは、多様なデータ型の高度なクエリと統合のための比類のないプラットフォームを提供し、生成AIの分野で企業の意思決定とイノベーションを推進します。


コメント

このブログの人気の投稿

Oracle RACによるメンテナンスのためのドレインとアプリケーション・コンティニュイティの仕組み (2023/11/01)

Oracle APEXのInteractive Gridで、Oracle Formsと比較して、重複行の検証を制御/通過させる方法 (2022/07/21)

Oracle APEX 24.1の一般提供の発表 (2024/06/17)