Text=濱田敬弘、北爪裕紀 日本IBM
近頃、データレイクハウスというデータ分析基盤の新たな技術が注目を集めている。
本連載では、データレイクハウスソリューションであるwatsonx.dataについて、数回に分けて“イイね”のポイントをお伝えしようと思う。
第1回目ではデータウェアハウスやデータレイク、Hadoopのようなデータ管理技術の進化と、データレイクハウスの必要性とメリットをご紹介した。 そして第2回目では、データレイクハウス利活用の活性化に必要なデータカタログ、そしてデータカタログを実現するプラットフォームであるCloud Pak for Data(以下、CP4D)について述べた。
今回は3回目として、データレイクハウスは単にデータ提供者側の器というだけではなく、データ利用者から見た際にデータレイクハウスがあることで業務にどう貢献するか、デモを交えて述べてみたいと思う。
今回のアジェンダは、以下のとおり。
– データレイクが活発になった背景としてデータサイエンス・機械学習の存在
– データレイクが活発になった一方で、“使いやすさ”が求められるように
– データサイエンスは市民データサイエンスの時代に(さまざまなデータを使いやすく、というニーズが広まった)
– IBM Cloud Pak for Data(以下、CP4D)では“データの意味づけ”から各種アプリケーションまで統合的に扱える
– デモ動画の紹介
– まとめ
データレイクが活発になった背景として
データサイエンス・機械学習の存在
本連載の第1回で述べたように、データレイクの需要はデータサイエンスや機械学習の注目により日々高まっている。理由とその経緯はこうだ。
・2000年代初頭からWeb や SNS が急速に普及したことで、構造化以外のデータを保管するニーズが増えた。
・クラウド技術の普及により、Amazon S3 や IBM Cloud Object Storage といったオブジェクトストレージを用いたデータレイクが登場した。
・データサイエンスや機械学習の注目により、多様なデータの活用ニーズが高まった。
広義での AI の普及には、データソースとして非構造化データ(テキスト、画像、動画など)の利活用が欠かせない。そのため、こうした変化が、データレイクの重要性をさらに高めている。
データレイクが活発になった一方で
“使いやすさ”が求められるように
本連載の第2回では、これらのデータレイク需要に対して課題を述べた。
1つ目の課題として、データレイクが普及した一方で、「とりあえず入れておく」という状態が目立ち始めた。結果、取り出す際の使いやすさが後手になってしまった。
この課題に対して、SNSなどでハッシュタグにより検索性が高まるように、ビジネスでも旧来のフォルダ分類といった物理的な管理だけではなく、論理的な手段としてタグ付けが有効となりだした
もう1つの課題として、データレイクに投入されるデータはシステム用語のまま定義されているケースが目立つ。これではデータ利用者が感覚的に理解できずに非効率的である。
この課題に対して、システム用語をビジネス用語に言い換えるデータカタログの必要性が高まった。
データサイエンスは
市民データサイエンスの時代に
本連載とは別のi Magazine の記事に、「市民データサイエンティスト」について記述された箇所があるので引用したいと思う(「市民データサイエンティストと自動AI ~業務知識の豊富な社内ユーザーを分析の中核に」)
データ分析の需要に対し、データサイエンティスト自体が非常に少ないため、雇用するにもかなりのコストがかかる。しかし高度な分析スキルをもつデータサイエンティストの雇用が容易でないとしても、それを理由にビジネスを止めるわけにはいかない。
この背景を踏まえ、データから得られた知見を業務に反映させていくために、業務ユーザーによる分析活動として、「市民データサイエンス」という新しい概念が生まれた。
市民データサイエンスとは、「統計学や高度な分析手法の知識、専門的なプログラミングのスキルや経験をもたないユーザーであっても、高度なアナリティクスによってデータから洞察を得るための取り組みである」と、ガートナーは定義している。
統計学や分析手法など分析の専門知識をもたない業務ユーザーでも、分析ツールの利用や教育、ユーザー同士の協業など組織的に推進する仕組みがあれば、市民データサイエンティストとしてデータから有益な情報を得ることは可能である。
つまり、ビジネスユーザー(LoB)が業務知識を活かしながらデータサイエンスも自身で活用することが求められている。よって、ビジネスユーザーがITをいかに簡単に利用できる状態にするか、またいかに生産性を高める術を提供するか、が企業にとって肝になる。
前述したように、以下が生産性を高めるポイントになり、本来の目的である業務でのデータ活用へ集中できる。
・データレイクで“さまざまなデータを扱える環境”が必要であること
・それらのデータが“活用しやすい(検索しやすい)状態”にあること
・感覚的に“理解しやすい言葉”であること
市民データサイエンティストとデータカタログの関係性は、第2回寄稿で紹介した以下のイメージである。
CP4Dでは”データの意味づけ”から
各種アプリケーションまで統合的に扱える
企業内のさまざまなデータをデータカタログ化する際に、各種データソースへの接続をプラットフォームに集約することで、データを利用するアプリケーションからの接続を一元化できるとともに、ビジネス用語の意味付けも1カ所で行える。専門のデータサイエンティスト、市民データサイエンティスト両方に対して、データの発見と利用を促進できる。
watsonx.dataは構造化データだけでなく、準構造化データへも接続でき、さらにそのまま標準SQLでクエリーできるため、データソースの集約に最適である。
また、CP4Dはデータカタログや機械学習といったデータ利活用に必要な機能をオールインワンで備えていることから、CP4Dとwatsonx.dataを接続することで、データ利用者が各種データソースにデータカタログを介してアクセスし、利用する環境を提供することができる。
参考サイト
「CP4Dとwatsonx.dataの接続のサポート状況」(CP4Dバージョン4.7.x)
実際に稼働状況を確認すると、CP4D上のSPSS Modeler/DataStageで確認できている(2024年1月5日時点)。
デモ動画の紹介
最後に、データ利用者にとってのメリットを表現するSPSS利用でのユースケースのデモ動画を紹介する。
これまでSPSSなどで準構造化データにファイル単位でアクセスしていた場合、以下の非効率性があった。
・準構造化ファイルを分析の都度、ファイルを配置して接続しなければならない手間がある
・個別ファイルへのアクセスとなり、分析や活用が属人化してしまう(野良データ、野良アプリケーションが溢れる)
・ファイルや項目の意味を理解する手間、または探す手間がある
データレイクハウスを介すること、データカタログを利用することで効率化でき、データ利用者への間口が広がり、本来のビジネスにより集中できるキッカケを与える。
「データの利用をプラットフォームとして支えるwatsonx.data + Cloud Pak for Data(CP4D):Part1」
「データの利用をプラットフォームとして支えるwatsonx.data + Cloud Pak for Data(CP4D):Part2」
まとめ
全3回にわたって旬のデータレイクハウス、watsonx.dataのポイントを述べてきた。
データ利用者が利用できる環境は著しく進化しているが、そのデータに対しいかに利用しやすい環境・プラットフォームを用意できるかも重要なポイントである。
watsonx.dataとCP4Dによるデータソースへの接続の集約とデータカタログが、市民データサイエンスの実現にとって有効であると感じていただけたら幸いである。
著者
濱田 敬弘氏
日本アイ・ビー・エム株式会社
テクノロジー事業本部
カスタマーサクセス
シニアカスタマーサクセスマネージャー
Data&AI Architect
2009年に“データ”への愛着心から、ビッグデータ領域をお客様へ提案することにこだわり始めた。スタートアップ・ベンダーで西日本の立ち上げ・拡大に従事。お客様内のデータ利活用文化の醸成を支援してきた。現在は日本IBMでカスタマーサクセスに従事。お客様のデータ利活用成功(サクセス)に伴奏するため、気づきを提供する活動を展開。
著者
北爪 裕紀氏
日本アイ・ビー・エム株式会社
テクノロジー事業本部
カスタマーサクセス
アドバイザリーカスタマーサクセスマネージャー
Data&AI Architect
日系SIerでミッションクリティカル・システムの開発と保守に携わった後、自社の新規サービス型ビジネスの開発や、お客様のプロダクト開発を支援してきた。現在は日本IBMにおいてカスタマーサクセスに従事し、製品の価値を最大限活用していただくための支援を行っている。
*本記事は筆者個人の見解であり、IBMおよびキンドリルジャパン、キンドリルジャパン ・テクノロジーサービスの立場、戦略、意見を代表するものではありません。
当サイトでは、TEC-Jメンバーによる技術解説・コラムなどを掲載しています。
TEC-J技術記事:https://www.imagazine.co.jp/tec-j/
[i Magazine・IS magazine]
新連載「旬のデータレイクハウス、watsonx.dataが“イイね”のポイント」