MENU

新連載「旬のデータレイクハウス、watsonx.dataが“イイね”のポイント」❶ ~データレイクハウスはなぜ必要になってきたのか

 

Text=濱田 敬弘、北爪 裕紀 日本IBM

 

はじめに

近頃、データレイクハウスというデータ分析基盤の新たな技術が注目を集めている。
 
本連載では、データレイクハウスソリューションであるwatsonx.dataについて、数回に分けて“イイね”のポイントをお伝えしようと思う。
 
今回はその1回目。データレイクハウスはなぜ必要になってきたのか? その経緯と課題解決の流れを述べることで、読者の方々にデータレイクハウスの必要性を感じていただけるのではないかと思う。
 
今回のアジェンダは、以下のとおり。
 
– データを貯める器 ~時代の流れ
– データを貯める器 ~データウェアハウス、その課題
– もう1つのデータを貯める器 ~データレイク、その課題
– データレイクの注目とともにHadoopが現れた。その課題は?
– 再びデータレイクの必要性が高まった
– 2020年代に求められるもの ~データレイクハウス
– データレイクハウスが“イイね”のポイント
– デモ動画をご覧ください
– まとめ
– 次回予告

データを貯める器 ~時代の流れ

データ分析基盤の移り変わりは、日本IBMの岡口純子がi Magazineへの寄稿で解説している。
 
・データレイクハウスという選択肢 ~オープンなアーキテクチャを備えるレイクハウスソリューション「watsonx.data」
 
上記の記事で説明された時代の流れをざくっと図で表すと、以下のようになる。
 
データ分析基盤の変遷
データ分析基盤の変遷
 
それでは、ポイントを確認しながらデータレイクハウスがどういった背景で登場したのか、従来の課題をどのように解決するのかを見ていくこととする。

データを貯める器 ~データウェアハウス、その課題

ビジネスで扱うデータ量の増加に伴い、1990年代にデータウェアハウスが登場した。これは、データの集中管理と分析に活用され始めた。そして、時代が進むとWebやSNSの急速な普及により、画像や動画、音声などの非構造化データが膨大に溢れてきた。
 
課題:データウェアハウスは構造化データを扱うことにフォーカスしており、非構造化データを取り扱えないという欠点があった。

もう1つのデータを貯める器 ~データレイク、その課題

WebやSNSの普及による画像や動画、音声などの非構造化データの爆発的な増加を背景にデータレイクが登場し、あらゆる種類のデータを保管できるようになった。
 
課題:しかし、データレイクでのデータ管理にはデータウェアハウスにあるような厳格なACIDサポートがなかったり、さまざまな種別のデータを収集するため、データ品質に課題があった。その結果、多くのデータレイクは蓄積データを効果的に活用できない「データスワンプ(データの沼地、よどんだ状態)」という状況に陥った。

データレイクの注目とともにHadoopが現れた。その課題は?

時の流れとともに、大量データとさまざまな種類のデータを扱う必要性から、データレイクを扱う新しいテクノロジーとしてApache Hadoopが登場した。Hadoopはデータレイクを実装するフレームワーク。大量かつさまざまな種類のデータを格納し、分散処理により効率的にデータ処理を行うことを目的としている。
 
Hadoopで扱うデータは、非構造化データや準構造化(半構造化)データなど。ここでいう準構造化ファイルは、以下のようなものを指す。
 
 •CSV、XML、JSON
 •AVRO
 •PARQUET、ORC
 
課題:Hadoopには実装やチューニングにおける技術面の敷居の高さ、ガバナンスなど管理面での複雑さといった課題があり、手軽に導入・運用できるとは言い難い現状があった。

再びデータレイクの必要性が高まった

一方で、クラウド技術の普及により、Amazon S3やIBM Cloud Object Storageといったオブジェクトストレージを用いたデータレイクが登場した。
 
オブジェクトストレージを用いたデータレイクは高い拡張性を持つとともに、Hadoopにおける構築・管理の複雑さを解消した。
 
課題:オブジェクトストレージはデータの保存には優れているが、高度な分析やデータ管理には最適化されてはいない。
 
このように課題が残る一方で、データレイク自体の需要はデータサイエンスや機械学習からの注目により日々高まっている。これら広義のAIの普及には、データソースとして非構造化データ(テキスト、画像、動画など)の利活用が欠かせない。
 
データレイクを活用するアーキテクチャとしてHadoopを挙げたが、Hadoopの登場とともに準構造化データもデータレイク上で盛んに扱われるようになった。
 
これによりデータレイクの活用はますます期待されるようになってきている。

2020年代に求められるもの ~データレイクハウス

ここまで述べてきた通り、オブジェクトストレージを活用したデータレイクは大量データの効率的な保管に適しているが、データ分析に関してはデータウェアハウスのほうが優れている。
 
そのため、Hadoopからオブジェクトストレージへ移行した企業や、データサイエンスや機械学習用に準構造化データをオブジェクトストレージに収集している企業では、準構造化データを利用するときはデータウェアハウスに構造化データとして読み込んで分析を行う場合がある。
 
このアプローチは、保管の柔軟性と分析の効率性をバランスよく組み合わせている。しかし、データレイクに保存した準構造化データを直接データウェアハウスと同じように扱えれば、よりいっそう便利だろう。それを実現するのがデータレイクハウスだ。
 
データレイクハウスは、データウェアハウスとデータレイクを一体化して提供するサービスである。
 
データレイクハウスの概要
データレイクハウスの概要

データレイクハウスが“イイね”のポイント

データウェアハウスとデータレイクの一体化により、データレイクハウスは以下のメリットをもたらす。
 
•オブジェクトストレージに置かれた準構造化データを、そのまま標準SQLでクエリーできる。
 
•オープンテーブルフォーマットを利用するため、特定のデータベースに依存しない。ワークロードによって柔軟にクエリーエンジンを切り替えることが可能である。

デモ動画

データウェアハウスとデータレイクの併用における問題点を、データレイクハウスがどのように解決するかを説明した動画。watsonx.dataではどのように操作するのか、以下のデモ動画で確認できる。
 
 
データレイクに保存した準構造化ファイルに直接クエリーできる。
 
 
データレイクにバックアップしたデータも復旧なしにクエリーできる。
 
そして、watsonx.dataならではのメリットをもう1つ述べておきたい。
 
既存のデータレイクハウスはSaaS型が一般的だが、セキュリティ面の不安や従量課金によるコスト予測の困難さを理由に、データ分析基盤をオンプレミスに置く企業も数多くある。watsonx.dataはSaaS版だけではなくソフトウェア版も提供しており、お客様のニーズに最適な選択肢を提供している。
 
オンプレミスとクラウドの両方に対応するwatsonx.data
オンプレミスとクラウドの両方に対応するwatsonx.data

 

まとめ

データ分析基盤の新たな技術であるデータレイクハウスがどのような経緯で登場し、どのようなメリットをもたらすかを述べてきた。データレイクハウスはデータへのアクセスを容易にし、あらゆる企業がデータから価値を引き出し、ビジネス・イノベーションを促進することが可能になる。

次回予告

次回は、watsonx.dataが従来のデータレイクハウスとどのように異なるのかをクローズアップしてみたい。「さまざまなワークロードを一体化できるプラットフォーム、Cloud Pak for dataによる付加価値」として解説する予定である。
 

◎参考情報

実際に試してみたいという方は、こちらも参考になる。本稿の著者・北爪裕紀氏のQiitaへの寄稿である。
 

著者
濱田 敬弘

日本アイ・ビー・エム株式会社
テクノロジー事業本部
カスタマーサクセス
シニアカスタマーサクセスマネージャー
Data&AI Architect

2009年に“データ”への愛着心から、ビッグデータ領域をお客様へ提案することにこだわり始めた。スタートアップ・ベンダーで西日本の立ち上げ・拡大に従事。お客様内のデータ利活用文化の醸成を支援してきた。現在は日本IBMでカスタマーサクセスに従事。お客様のデータ利活用成功(サクセス)に伴奏するため、気づきを提供する活動を展開。

著者
北爪 裕紀

日本アイ・ビー・エム株式会社
テクノロジー事業本部
カスタマーサクセス
アドバイザリーカスタマーサクセスマネージャー
Data&AI Architect

日系SIerでミッションクリティカル・システムの開発と保守に携わった後、自社の新規サービス型ビジネスの開発や、お客様のプロダクト開発を支援してきた。現在は日本IBMにおいてカスタマーサクセスに従事し、製品の価値を最大限活用していただくための支援を行っている。

[i Magazine・IS magazine]

*本記事は筆者個人の見解であり、IBMおよびキンドリルジャパン、キンドリルジャパン ・テクノロジーサービスの立場、戦略、意見を代表するものではありません。


当サイトでは、TEC-Jメンバーによる技術解説・コラムなどを掲載しています。

TEC-J技術記事https://www.imagazine.co.jp/tec-j/

[i Magazine・IS magazine]

新着