MENU

watsonx.dataで実現するデータレイクハウスの5つのユースケースパターン ~新しいデータセットと高度なデータ処理技術を支援する

Text=中嶋徳彦 日本アイ・ビー・エム システムズ・エンジニアリング

 

IBMのデータレイクハウス

IBMのデータレイクハウスとそのガバナンスアーキテクチャは、ハイブリッドクラウド環境を指向しており、watsonx.data プラットフォームに基づいています。

watsonx.data プラットフォームは、オープンなレイクハウスアーキテクチャに基づいて構築された堅牢なデータストアを提供し、企業はデータ分析とAIのワークロードを容易に拡張できます。レイクハウスアーキテクチャは、データウェアハウスのパフォーマンスと使いやすさに、データレイクの柔軟性と拡張性を融合し、データ管理とデータ分析にバランスの取れたソリューションを提供します。

watsonx.data プラットフォームは、SaaS およびオンプレミスソリューションの両方の形態で提供されます。SaaS サービスを提供していない地域のユーザー、または規制や他の制約によりレイクハウスプラットフォームをオンプレミスに維持する必要があるユーザーは、次の選択肢により、どこでもデータレイクハウスをデプロイできます。

❶ IBM Cloud または AWSに、watsonx.data SaaS をデプロイする。
❷ オンプレミスのOpenShift、または、マネージド OpenShift を備えたほかのパブリッククラウド上に、watsonx.data をスタンドアロンソリューションとしてデプロイする。
❸ IBM Cloud Pak for Data (CP4D) クラスターに watsonx.data をデプロイする。

図表1に、データレイクハウスの例を示します。

図表1 データレイクハウスの例

以下に、データレイクハウスおよびwatsonx.dataで使用される用語の概要を簡単に説明します。

◎クライアントアプリケーション
クライアントは、クライアント自身が所有するオンプレミスのアプリケーションや、サードパーティが提供する SaaS を利用しています。アプリケーションや SaaS は独自のデータストア(構造化または非構造化)を持ちます。

◎データストア
クライアントが所有するオンプレミスのアプリケーションや、クライアントが利用している SaaS の構造化データまたは非構造化データ、ファイル、ソーシャルメディア、IoT デバイスなどからの非構造化データ、あるいはデータウェアハウスなどです。

これらのデータストアはアプリケーションやSaaS、IoTなどの、個別の要件に従って設計、実装、デプロイされるので、結果的にさまざまなロケーションに散在しています。

◎データレイクハウス
watsonx.data は、データレイクとデータウェアハウスの機能を折衷しバランスを取った、次世代のデータストアアーキテクチャです。これは IBM の データレイクハウスアプローチの基礎であり、効率的なデータガバナンスを確保しつつ、データ分析やAIおよび機械学習 (ML) のワークロードの拡張を容易にします。

◎大規模言語モデル
データレイクハウスは、大規模言語モデル (LLM) でクエリを強化するために、生成AIのプラットフォームに接続することもできます。ユーザーがプロンプトを入力すると、そのプロンプトが LLM に送信され、検索クエリが生成されます。このようにして生成された検索クエリを、データレイクハウスのクエリエンジンで実行できます。

IBMデータレイクハウスのパターン 

ここからは、IBMデータレイクハウスのユースケースパターンを見ていきます。パターンは組み合わせて利用できます。

パターン1 目的に応じたクエリエンジンの使い分け

目的に応じて、ワークロードにクエリエンジンを適材適所で使い分けることで、コストを最適化します。また同時に、すべてのクエリエンジンで、同一の環境、同一のメタデータ、同一のデータを共有します。

たとえばSparkの得意分野は、データソースからのデータ収集(Ingest)やデータ変換(ETL)および大規模なAI/MLワークロードです。Prestoの得意分野は、多彩なデータソースに対するアドホックなクエリです。

図表2 目的に応じたクエリエンジンの使い分け

パターン2 すべてのデータに1つのレイヤーからアクセス

企業は社内外のユーザーの多様なニーズに応えるために、構造化された高性能のデータウェアハウスから、大容量の非構造化/準構造化データに至るまで、多様なデータストアを構築してきました。

結果的に、これらのデータストアは個別の要件に最適化されて設計・実装されており、さまざまなロケーションに散在しています。このような現代のデータアーキテクチャに対して、データレイクハウスは、新しいアプローチを示します。

watsonx.data を活用したデータレイクハウスにより、複数のクエリエンジン、同一のメタストア、ガバナンスを通じて、単一のレイヤーから、さまざまなデータストアへアクセス可能になります。個別のデータストアからデータを移動せずとも、データにアクセスできます。必要であれば、データレイクハウスにデータを集めることもできます(「IBM watsonx as a Service コネクター」)

Db2 warehouse(列指向データストア)ですでに大規模なデータウェアハウスを構築しているユーザーは、watsonx.dataのデータをDb2 エンジンから使用することもできます。Db2 LUW v11.5.9 の機能強化により、Federation IBM watsonx.data が追加され、watsonx.dataへのFederationアクセスが可能になりました。

図表3 すべてのデータに1つのレイヤーからアクセス

パターン3 データウェアハウスのワークロードと維持コストの最適化

安価なオブジェクトストレージとコンピューティングを活用することで、データウェアハウスに蓄積された時系列データへのクエリ機能を維持しながら、データウェアハウスの維持コストを削減します。

たとえば、System of Record(SoR)、System of Engagement (SoE) のデータソースへの更新を、Change Data Capture (CDC) 技術によりデータレイクハウスに連携し、Spark の増分ETLを利用すると、データソースや中間テーブルで変更されたデータのみについて、インクリメンタルにデータを変換できるので、クエリの処理時間とコンピューティングコストを削減できます。

こうした機能を、データの前処理や変換に活用することで、データウェアハウスのワークロードを最適化できます。

図表4 データウェアハウスのワークロード

パターン4 ハイブリッドマルチクラウド環境でのデプロイ

データ仮想化やフェデレーションなどの技術を使って、他のオンプレミスやパブリッククラウドなど、データレイクハウスから離れたロケーションにあるデータストアに対しても、リモートで接続しデータにアクセスできます。

図表5 ハイブリッドマルチクラウド環境でのデプロイ

パターン5 メインフレームのデータをモダンな分析/AIエコシステムに統合

リモートのメインフレーム上の VSAM および Db2 データに対しても分析が可能です(「Db2 for z/OS Data Gate」)。CDCの技術を使って直接、またはKafkaなどを中継して、Db2 for z/OS データを、データレイクハウスへニア・リアルタイムで同期することで、メインフレームに重い負荷をかけることなく、データを利活用できます。

図表6 ハイブリッドマルチクラウド環境でのデプロイ

新しいデータ資産を支えるデータストア 

最新のアプリケーションは、より効率的でスケーラブルなデータ駆動型のサービスを提供するために、テキスト・画像・音声・映像などの非構造化データ、IoTが送信するストリームデータなど、“新しい”データセットと、高度なデータ処理技術に依存しています。

データレイクハウスは、データストレージ、データ統合、パフォーマンス、スケーラビリティ、コスト効率について、優れた基盤を提供できます。

自然言語によるデータのクエリ 

データレイクハウスは、生成 AI および大規模言語モデル機能 (watsonx.ai) と組み合わせることで、英語や日本語などの自然言語によるクエリができるようになります。

データ構造の技術的な詳細に明るくなくても、SQLをマスターしていなくても、さまざまなデータストアにまたがる分析を、大規模言語モデルによる支援を得ながら実行できます。

著者
中嶋 徳彦氏

日本アイ・ビー・エム システムズ エンジニアリング株式会社
データプラットフォーム
シニアテクニカルスペシャリスト

IBMデータベース製品を中心に、金融/保険のミッションクリティカルシステムにおける高性能・高可用性データベースアプリケーション/基盤設計をリード。2020年に日本アイ・ビー・エム システムズ エンジニアリングへ入社後、IBMデータベース製品を担当し、社内外向け技術検証・セミナー講師の傍ら、データベース製品技術コンサルティングを実施。近年はデータ領域で、クラウド型OLTP/DWH技術やストリーミング技術を利用したデータ指向アプリケーション設計をリード。

[i Magazine・IS magazine]

*本記事は筆者個人の見解であり、IBMおよびキンドリルジャパン、キンドリルジャパン ・テクノロジーサービスの立場、戦略、意見を代表するものではありません。


当サイトでは、TEC-Jメンバーによる技術解説・コラムなどを掲載しています。

TEC-J技術記事https://www.imagazine.co.jp/tec-j/

[i Magazine・IS magazine]

[i Magazine・IS magazine]

新着