Oracle Autonomous Databaseとクラウド間のDatabricksとの接続方法 (2023/10/31)
Oracle Autonomous Databaseとクラウド間のDatabricksとの接続方法 (2023/10/31)
投稿者: Alexey Filanovskiy | Product Manager
以前は、顧客は1つの処理システムを選択し、すべてのデータをそこに置く必要がありました。これは、データベースまたはHadoopディストリビューションです。これらのプラットフォームを連携させるのは難しいことであり、データをある場所から別の場所にコピーすることは、情報を共有する通常の方法でした。このアプローチには、古いデータ、不要なストレージとCPUの使用、稼働を維持するための余分な作業、ミスの可能性など、多くの問題がありました。
デルタ共有により、プラットフォーム統合の新たな可能性が明らかに
Oracle ADBは、適切に管理されたデータベースのクラウドベースの形式です。30年以上にわたる集中的な開発が印象的な結果をもたらしたため、Oracle Databaseがどれほど堅牢で強力であるかを強調する必要はありません。そのクラウド製品により、Oracleは多数の最先端の機能を組み込んでおり、今日の主要なクラウド・データベース・ソリューションの1つとなっています。2013年に設立されたDatabricksは、Sparkおよび機械学習タスクに人気のあるプラットフォームです。興味深いことに、この2つのプラットフォームは別々のクラウドで運用できます。ただし、Delta Sharingは、各プラットフォームがクラウド間で他のプラットフォームのデータにアクセスできるようにします。Web UIを使用して、より明確な視覚的な説明を行うことで、これが例でどのように機能するかを説明します。
シナリオ: Oracle ADBがDatabricksによって共有されるデータにアクセス
プロセスは非常に簡単です。
ステップ1.Databricksによって共有が作成され、Oracleにメタデータが提供されます。データをコピーする必要はありません。メタデータのスワップにすぎません。
ステップ2.Oracle - Databricksのメタデータを使用して、最後に外部表(メタデータのみ)を作成します。
ステップ3.その後、Oracleは外部表を問い合せます。
データはDatabricksのストレージにとどまり、コピーの必要がなくなります(ただし、ネットワーク通信によって処理速度が低下する可能性があることに注意してください)。
ステップ1.Databricksから共有を作成
まず、Databricksでデータを共有する必要があります。これを行うには、いくつかの簡単な手順に従ってください。「データ」メニューの「デルタ共有」サブメニューを選択してから、「データの共有」ボタンをクリックします。
次に、シェアに名前を割り当てます。
共有を設定したら、その共有へのテーブルの追加を開始できます。
カタログおよびデータベースを選択して、使用可能な表のリストを表示します。
共有にテーブルを追加したら、名前付き受信者(データを使用するパーティ)を作成する必要があります。
受信者が設定されると、アクティブ化リンクが送信されます。このリンクは、ユーザーが自分の共有プロファイルをダウンロードできるWebページにつながります。これは、共有データの使用を開始するために必要なすべてのプロセスを提供する1回かぎりのプロセスです。
このURLをWebブラウザにコピーし、プロファイルをダウンロードします。
ステップ2.OracleでのMetadataのエクスポートおよびデルタ共有での外部表の設定
データベース・アクションUIから開始し、「データ共有」を選択します。
「データ共有」メニューで、「共有の消費」を選択します。
次に、「Subscribe」ボタンをクリックします。
共有プロセスの最後のステップで指定したリンクからダウンロードした構成ファイルを追加する必要があるページが表示されます。
次に、追加するシェアを選択します。
そして、この共有内のテーブルを選択します。
ステップ3.Oracle ADBからDatabricksデータを問い合せます。
これで、Oracle Databaseに新しい外部表が表示されます。これに対して問合せを実行できます。
Oracle ADB外部表はDelta Serverエンドポイントに接続されていることに注意してください。
CREATE TABLE POTENTIAL_CHURNERS
(
CUST_ID NUMBER,
WILL_CHURN NUMBER ,
PROB_CHURN BINARY_DOUBLE
)
ORGANIZATION EXTERNAL
(
TYPE ORACLE_BIGDATA
ACCESS PARAMETERS
(
com.oracle.bigdata.credential.name="CHURN_CUSTOMERS_DATABRICKS$SHARE_CRED"
com.oracle.bigdata.fileformat=parquet
com.oracle.bigdata.access_protocol=delta_sharing
)
LOCATION (‘https://nvirginia.cloud.databricks.com/api/2.0/delta-sharing/...#CHURN_CUSTOMERS.DEFAULT.POTENTIAL_CHURNERS')
);
まとめ
要約すると、デルタ共有は、Oracle ADBやDatabricksなどのプラットフォーム間でライブ・データを共有するためのシームレスな新しい方法です。以前は、あるプラットフォーム・システムでデータがスタックしていたため、それをコピーして別のプラットフォームと共有する必要がありました。現在、Delta Sharingでは、これらのプラットフォームは、コピーを必要とせずに互いのデータを確認できます。
この方法ははるかに良い。古いデータ、不要なコンピュータの使用、余分な作業などの古い問題を回避します。
この過程の簡単な例を示した。Databricksではデータが共有され、Oracleではこの共有データが使用され、Oracleではこのデータの質問を問い合せることができます。簡単な1-2-3プロセスです。
コメント
コメントを投稿