IBMは7月6日(米国時間)、データ・オブザーバビリティ(Data Observability、可観測性)プラットフォームを開発するDatabandを買収した、と発表した。
データ・オブザーバビリティとは、「システム内のデータの健全性と状態を把握するための包括的な概念で、ほぼリアルタイムにデータの健全性に関わる問題を特定し、トラブルシューティングし、解決するための機能や技術を指す用語」(Databand資料)。
企業は現在、社内外のさまざまなデータソースからデータを取り込み、それらの活用によりビジネスを推進している。しかし、収集したデータに脱落・欠損・不完全があったり、フォーマットなどがソース元によって変更されたりすると企業のデータ活用スキーマに合わなくなり、結果的に企業のビジネスに影響するという事態が起きている。
Databandのデータ・オブザーバビリティ製品はそうした事態を回避するためのプラットフォームで、ソース元からデータを取り込む際の一連のプロセス(「パイプライン」と呼ぶ)を監視して、サービスレベルに達しないデータや障害に対して警告を発するとともに、データ品質の統計や変化を追跡する機能を備える。
プラットフォームは以下の3つのコンポーネントで構成される。
SDK
PythonライブラリとCLIで構成され、パイプラインの作成やメタデータの収集のために使用する。任意の環境にインストールできる。
メタデータストア
パイプラインの定義と、システムがパイプラインを実行、バージョンアップ、再現できるようにするためのメタデータを保存するデータベース。定義には、データの入出力へのパス、コードロジック(タスク)、環境設定、および実行に必要なその他のアーティファクトが含まれる。
アプリケーション
実行中およびプロジェクトのモニタリングと監視のためのWeb UI。アラートエンジンや異常検知システムも含まれる。
Databandは、BigQueryやSpark、AirFlowなど20種類以上のデータウェアハウスやデータベースとのネイティブ接続機能をもち、Databandとそれらデータソース元とのパイプラインを統合すると、使用中のデータセットに関するメタデータを自動作成する。このメタデータには、ジョブ時間やエラーなどの実行情報、データ数や完全性などのデータ品質メトリクスが含まれる。
IBMは、Databand製品をIBM WatosnやIBM Cloud Pak for Dataと統合し、データ/AI製品のポートフォリオを強化する計画。「DatabandとInstanaの組み合わせにより、アプリケーションとデータプラットフォーム全体を把握するためのビューを提供でき、組織が収益と評判を損失するのを防御できる」とアピールしている。Databandの社員はIBMのデータ・AI部門に編入される予定という。
[i Magazine・IS magazine]