発表: MySQL HeatWave Lakehouseの一般提供 (2023/07/20)
発表: MySQL HeatWave Lakehouseの一般提供 (2023/07/20)
https://blogs.oracle.com/mysql/post/announcing-mysql-heatwave-lakehouse-general-availability
投稿者:Nipun Agarwal | Senior Vice President, MySQL HeatWave
今日、MySQL HeatWave Lakehouseの一般提供とMySQL Autopilotの新機能が発表されました。これにより、組織は標準的なSQL構文を使用して、データベース・チューニングの専門知識を必要とせずに、オブジェクト・ストアからデータを効率的に問い合せることができます。オブジェクト・ストア内のデータは、CSV、Parquet、Aurora、Redshiftなどのデータベースからのエクスポート、MySQLなどの様々なファイル形式です。MySQL HeatWave Lakehouseを使用すると、ユーザーはObject Storageから最大0.5ペタバイトのデータを問い合せ、オプションで単一のSQL問合せでMySQLデータベースのトランザクション・データと組み合せることができます。オブジェクト・ストア内のデータはオブジェクト・ストアに残るため、MySQLデータベースにコピーされません。
MySQL HeatWave Lakehouseは、フルマネージド・データベース・サービスであるMySQL HeatWaveの機能で、非常にパラレルなインメモリー・クエリー・アクセラレータを搭載しています。データ・ウェアハウス・ワークロードに対して、業界最高のパフォーマンスと価格性能比を提供します。完全に自動化されたデータベース内機械学習処理を提供します。さらに、トランザクション、分析、自動機械学習を組み合わせて、オブジェクト・ストアを1つのMySQLデータベースにクエリする唯一のクラウド・データベース・サービスであり、複雑なETL重複、遅延、コストを発生させることなく、リアルタイムで安全な分析を提供します。
Data Lakehouseの機能が必要な理由
MySQL HeatWaveでレイクハウス機能をサポートするいくつかの理由があります。
- ここ数年、オブジェクト・ストアとデータ・レイクに保存されているデータは、かつてないほど増加しています。
- このデータを分析する必要はありますが、そのサイズと構造の欠如、および標準の問合せツールにより、データの分析が困難でコストが高くなります。
- ユーザーは、複雑さ、時間およびコストのために、オブジェクト・ストア内のファイルのデータをデータベースにロードして分析しないことがよくあります。しかし、データレイク内のデータをデータベース内のトランザクション・データと組み合せて分析を実行できるようにしたいと考えています。
MySQL HeatWave Lakehouseは、統合された非常に効率的なソリューションにより、これらの課題に対処します。MySQL HeatWaveは、オブジェクト・ストア内の数百テラバイトのデータを問い合せるように拡張されています。HeatWaveは最大512ノードまで拡張できるため、顧客はMySQL HeatWave Lakehouseで最大半ペタバイトのデータを問い合せることができます。オブジェクト・ストア内のデータの問合せのパフォーマンスは、データベース内のデータの問合せのパフォーマンスと同じです。実際には、データ・レイクに大量のデータがある場合は、MySQL HeatWaveを使用してデータを問い合せることができます。
HeatWave Lakehouseでは、CSV、Parquetなどの様々なファイル形式でデータを処理でき、データベースからのエクスポートも可能です。オブジェクト・ストアからMySQLデータベースにデータをコピーしなくても、Object Storageのデータを問い合せたり、オプションでMySQLデータベースのトランザクション・データと組み合せることができます。
500TBのTPC-Hベンチマークでは、MySQL HeatWave Lakehouseのクエリ・パフォーマンスはSnowflakeより17倍高速で、Amazon Redshiftより9倍高速で、Databricksより17倍高速で、Google BigQueryより36倍高速です。大量のデータでは、ロード・パフォーマンスも重要です。500TBのデータセットの場合、HeatWave LakehouseはSnowflakeのロードに2倍高速、Amazon Redshiftより9倍高速、Databricksより6倍高速、Google BigQueryより8倍高速です。MySQL HeatWave Lakehouseは、オブジェクト・ストアからデータをロードし、クエリーするための業界で最も高速なデータベースです。
MySQL HeatWave Lakehouseのアーキテクチャ
HeatWave Lakehouseは、ユーザーがデータレイクを問い合せる際に直面する主要な課題に対処できるように設計されています。
- スケールアウト・アーキテクチャにより、HeatWaveは、数ギガバイトから最大500TBまでのデータ・サイズで記録パフォーマンスを持つ問合せをロードおよび実行できます。HeatWaveクラスタは、最大512ノードまでスケーリングできます。
- MySQL Autopilotは、ファイルの自動スキーマ推論などの一般的なデータ管理タスクを自動化し、オブジェクト・ストアからデータをロードするための最適なクラスタ・サイズと時間を予測します。
- データベースおよびオブジェクト・ストア内のデータの統合問合せエンジン。ロード時に、HeatWaveは、任意のソースから1つの最適化された内部形式にデータを自動的に変換します。つまり、同じパフォーマンスのデータ・ソース(InnoDBまたはオブジェクト・ストア内のデータ)に関係なく、問合せを最適化して実行できます。
- HeatWave Lakehouseは、MySQL構文に準拠した100%です。MySQLと連携するアプリケーションは、オブジェクト・ストア内のデータを変更することなく操作できるようになりました。
- コンピュート・ノードの障害時にHeatWaveクラスタにロードされたデータを自動的にリカバリできる高可用性管理対象データベース・サービスで、外部データ形式からの再変換は行われません。
- 事前認証済リクエスト(PAR)やOCIリソースプリンシパル・メカニズムなどのセキュアなアクセス制御方法を使用して、データレイク・ソースへのアクセスを完全に制御します。
スケールアウト・アーキテクチャ
HeatWave Lakehouseは512ノードにスケーリングされ、最大0.5ペタバイトのデータを処理できます。これには、非常にパラレルで高パフォーマンスなインメモリー問合せ処理エンジンがあります。HeatWave Lakehouseでは、オブジェクト・ストアからのデータのロードとデータの問合せがスケール・アウトされます。
ロード中、オブジェクト・ストアからのデータは、HeatWaveインメモリー形式に変換されます。HeatWave Lakehouseでは、ロード・プロセスをスケーリングするために、ソース・データを小さな単位に分割するスーパーチャンクと呼ばれるプロセスを使用して、ノード間の同期を最小限に抑えます。動的タスク・バランシングは、クラスタ全体にタスクを適応的に分散します。これにより、クラスタ内のすべてのコアが完全に利用されるようになり、ストラグラを回避できます。アダプティブ・データ・フローを使用すると、クラスタ内の各ノードは、オブジェクト・ストア・リクエストのレートを個別にモデレートして、その時点で使用可能な最大レートと一致させることができます。
MySQL Autopilot
MySQL AutopilotはMySQL HeatWaveの統合機能であり、様々なデータベース操作のための機械学習ベースの自動化を提供し、開発者とDBAの負担を軽減します。Lakehouseでは拡張され、MySQL HeatWave Lakehouseのスケーリング、ロードおよび処理を効率的に進めることが有益です。HeatWave Lakehouse用に開発されたMySQL Autopilotの機能は次のとおりです。
- 自動スキーマ推論: MySQL Autopilotは、列数、列のデータ型およびこれらの列の精度をインテリジェントにスキャンして自動的に挿入します。これは、ファイルにメタデータが含まれていないCSVファイルを操作する場合に特に便利です。
- アダプティブ・データ・サンプリング: 自動化に必要な情報とデータに関する情報を取得するために、ファイルをインテリジェントにサンプリングします。これらの手法を使用すると、MySQL Autopilotは1分未満で400TBのファイルでスキーマをスキャンして予測できます。
- アダプティブ・データ・フロー: MySQL Autopilotは、ノードの大規模なクラスタ全体でオブジェクト・ストアへのネットワーク帯域幅使用率を調整し、基礎となるオブジェクト・ストアのパフォーマンスに動的に適応することで、最適なパフォーマンスと可用性を実現します。
データ・レイクハウスのパフォーマンス
パフォーマンス評価は多面的であり、顧客はレイクハウス・システムのパフォーマンスを評価する際にいくつかの基準を持っています。オラクルのベンチマークでは、データ・ロードとデータの問合せのパフォーマンスと価格パフォーマンス、データベース内のデータの問合せのパフォーマンスの比較、様々なファイル形式でのパフォーマンスのロードと問合せなど、一般的な質問のほとんどに対応します。
データのロード中
MySQL HeatWave Lakehouseを使用してオブジェクト・ストアからデータをロードするパフォーマンスは、次のとおりです。
· Redshiftより9倍高速
· Snowflakeより2倍高速
· Databricksより6倍高速
· Google BigQueryより8倍高速
データの問合せ
データの問合せに関して、MySQL HeatWave Lakehouseは次のようなものです。
- Redshiftより15倍高速
- Snowflakeより18倍高速
- Databricksより17倍高速
- Google BigQueryより35倍高速
*ベンチマーククエリーはTPC-Hベンチマークから導出されますが、TPC-Hベンチマークの結果はTPC-H仕様に準拠していないため、結果は公開済みのTPC-Hベンチマーク結果と同等ではありません。
オブジェクト・ストア問合せのパフォーマンスとデータベース内の問合せデータの比較
HeatWave Lakehouseでは、同じ問合せ構文およびセマンティクスを使用してデータベースとオブジェクト・ストアのデータを問い合せることができますが、パフォーマンスはどのように比較されますか。
この2つのグラフから明らかなように、オブジェクト・ストア・データの問合せのパフォーマンスと価格のパフォーマンスは、データベースからのデータの問合せと同じです。
異なるファイル形式の問合せ
格納されたオブジェクトからのデータは、ロード中にHeatWaveインメモリー表現に変換されます。この形式は、ソース・ファイル形式とは関係なく同じです。したがって、問合せのパフォーマンスは、オブジェクト・ストア内のすべてのファイル形式に対して同じです。データのロードのパフォーマンスもほぼ同じです。
まとめ
HeatWave Lakehouseでは、MySQL HeatWaveの機能が拡張され、オブジェクト・ストア内のファイルを問い合せるようになりました。データのロードと問合せは、非常にスケーラブルな方法で行われ、業界で最も優れたパフォーマンスと価格パフォーマンスを提供します。データはオブジェクト・ストアに残るため、これらの問合せを実行するためにMySQLデータベースにコピーされません。このサービスは、OCIのすべてのリージョンで使用できます。
その他のリソース
- Oracle.comまたはGithubでパフォーマンス・ベンチマークの詳細を表示します。
- MySQL HeatWave Lakehouseの無料トライアルにサインアップ
- MySQL HeatWave Lakehouseの詳細
- 簡単なステップでMySQL HeatWaveに移行
コメント
コメントを投稿