MENU

IBM、データ・オブザーバビリティ(可観測性)のベンチャー企業Databandを買収 ~データの品質を常時監視、影響を可視化、Cloud Pak for Dataなどに統合

IBMは7月6日(米国時間)、データ・オブザーバビリティ(Data Observability、可観測性)プラットフォームを開発するDatabandを買収した、と発表した。

データ・オブザーバビリティとは、「システム内のデータの健全性と状態を把握するための包括的な概念で、ほぼリアルタイムにデータの健全性に関わる問題を特定し、トラブルシューティングし、解決するための機能や技術を指す用語」(Databand資料)。

企業は現在、社内外のさまざまなデータソースからデータを取り込み、それらの活用によりビジネスを推進している。しかし、収集したデータに脱落・欠損・不完全があったり、フォーマットなどがソース元によって変更されたりすると企業のデータ活用スキーマに合わなくなり、結果的に企業のビジネスに影響するという事態が起きている。

Databandのデータ・オブザーバビリティ製品はそうした事態を回避するためのプラットフォームで、ソース元からデータを取り込む際の一連のプロセス(「パイプライン」と呼ぶ)を監視して、サービスレベルに達しないデータや障害に対して警告を発するとともに、データ品質の統計や変化を追跡する機能を備える。

プラットフォームは以下の3つのコンポーネントで構成される。

SDK
PythonライブラリとCLIで構成され、パイプラインの作成やメタデータの収集のために使用する。任意の環境にインストールできる。

メタデータストア
パイプラインの定義と、システムがパイプラインを実行、バージョンアップ、再現できるようにするためのメタデータを保存するデータベース。定義には、データの入出力へのパス、コードロジック(タスク)、環境設定、および実行に必要なその他のアーティファクトが含まれる。

アプリケーション
実行中およびプロジェクトのモニタリングと監視のためのWeb UI。アラートエンジンや異常検知システムも含まれる。

Databandのプラットフォーム概要
Databandのプラットフォーム概要

Databandは、BigQueryやSpark、AirFlowなど20種類以上のデータウェアハウスやデータベースとのネイティブ接続機能をもち、Databandとそれらデータソース元とのパイプラインを統合すると、使用中のデータセットに関するメタデータを自動作成する。このメタデータには、ジョブ時間やエラーなどの実行情報、データ数や完全性などのデータ品質メトリクスが含まれる。

データの依存関係の視覚化
データの依存関係を視覚化

IBMは、Databand製品をIBM WatosnやIBM Cloud Pak for Dataと統合し、データ/AI製品のポートフォリオを強化する計画。「DatabandとInstanaの組み合わせにより、アプリケーションとデータプラットフォーム全体を把握するためのビューを提供でき、組織が収益と評判を損失するのを防御できる」とアピールしている。Databandの社員はIBMのデータ・AI部門に編入される予定という。


[i Magazine・IS magazine]

新着