Text=増田 健 日本アイ・ビー・エム システムズ・エンジニアリング
近年、企業の業務システムを構築するIT基盤として、Kubernetesなどのコンテナ技術、クラウドベンダーのサービス、オープンソース・ソフトウェア(OSS)を活用したシステムの構築と利用が急速に増えている。
これらの新しいIT基盤を使用したシステムの運用監視では、従来のオンプレミスのシステムに比べて、監視対象が複雑で、かつ監視方法が多様になってきた。
本稿では、これらIT基盤の変化に伴うIT運用業務の影響と、その改善案となるAIOpsによる運用高度化への取り組みについて紹介する。
IT基盤の複雑化に伴うIT運用業務への影響
IT運用チームは、業務システムが安定的に稼働し、利用者に継続してサービスを提供可能にするため、稼働状況の監視、性能情報の収集・分析、発生した問題への対応といったIT運用業務を行っている。
新しいIT基盤の業務システムが追加されると、そのシステムに対しての運用もIT運用チームの対象となる。そのため、IT運用チームは従来の運用に加えて、新しい製品や技術への対応が求められることになる。
前述したように管理対象となるIT基盤が新しい技術を取り入れて多様化・複雑化するに伴い、IT運用業務には次のような影響が出る。
◎管理対象の製品・サービスに対するスキル取得が必要となる
◎管理対象ごとに操作手順が異なり、手順が煩雑化する
◎管理システムごとに操作・監視するためのコンソールが増加する
◎上記の結果、障害発生時の事象の特定、問題判別、回復までに時間がかかる
システム障害の発生は、ビジネスに大きな影響を与える。そのため、IT運用業務の監視や障害対応を行う運用監視システムに対しては、図表1のような要件が求められる。
AIOpsとは
AIを活用したIT運用の概念として、AIOps (Artificial Intelligence for IT OperationsまたはAlgorithmic IT Operationsの略)が、2016年からガートナーによって提唱された。
AIOpsでは、以下のようなIT運用で機械学習(Machine Learning)とデータサイエンス機能を提供する。
・パフォーマンス・モニタリング
・ログ分析
・イベント相関分析
・ITサービス管理
・自動化
参考サイト
Gartner、How to Get Started WithAIOps
具体的には、AIOpsはシステム運用業務全体にかかわる処理にAIによる分析機能や自動化機能を取り込み、障害データやログの分析、パフォーマンス・メトリクスの分析、障害原因調査・影響分析に必要な情報を提示する。
これにより、運用担当者は発生した問題に早期に対応し、障害解決までの時間を短縮することが可能になる。
ちなみに、図表2にある「アノマリー」とは、メトリック値やメッセージがあるルールに照らし合わせたときに、通常と異なる状態(異常)のこと。例としては、「メトリック値がベースライン(動的に設定される閾値)を逸脱した」「メトリック値が急激に上昇/減少した」「通常出力される一連のメッセージと異なるメッセージが出力された」などが挙げられる。
ガートナーが公開している「2022年のITインフラストラクチャとオペレーションに影響を及ぼす6つのトップ・トレンド」として、管理体制の統合としてAIOpsの利用が推奨されている。AIOpsはこれらの機能により、大量のデータから重要障害やIT運用の問題をより早く認識し、解決するため機能を提供するものとして注目されている。
参考サイト
Gartner、6つのトップ・トレンド
また、ガートナーではアプリケーションやインフラストラクチャをモニターするために、AIOpsやデジタル・エクスペリエンス・モニタリングツールを使用する大企業の割合が、2018年の5%から2023年には30%に急増すると予想している。
IBM Cloud Pak for Watson AIOps
IBMは、2020年に「IBM Watson AIOps」、2021年に「IBM Cloud Pak for Watson AIOps」(以下、Watson AIOps)として、AIOps機能を実現するための製品を提供している。
最新のWatson AIOpsでは、前述したAIOpsのIT運用機能に対し、図表3のような機能を実装している。
クラウド環境は多くのベンダーが提供しており、稼働監視・性能監視・自動化の各製品もそれぞれのベンダーで異なる。また、ベンダー製品以外にOSSとしても数多くの製品があり、それぞれの製品で操作方法が異なる。さらに、運用業務の対象となるシステム環境や製品の組み合わせは、ユーザーの利用環境ごとに異なる。
Watson AIOpsは、IBM Cloud、AWS、Microsoft Azure等のクラウドベンダーが提供するRed Hat OpenShift上で稼働する。
クラウドベンダーのツールやサードパーティのツールと連携するためのインターフェース機能を提供し、WebhookやRest APIといった標準機能にも対応している。これらの製品から、ログ・メッセージなどの非構造化データやイベント/メトリクス/トポロジーなどの構造化データを取り込み、分析することが可能である。
AIOpsによる運用高度化の実現に向けて
AIOpsによる運用改善は、ユーザーに対して、「AIOpsを導入すれば、すぐに使える」「AIOpsでは、AIがすべての問題の原因を判断して自動対応してくれる」「予兆検知機能により、未知の障害発生も検知し、障害を未然に防止できる」など、多くの期待をもたせる分野である。
ただし、ユーザーが実現したい改善目標が具体的に明示されていない場合も多い。また、これらのユーザーの期待と要素技術の成熟度に大きな乖離がある場合もある。
そのため、どのようなAIOpsのツールを導入したらよいのかわからない、導入による具体的な効果がはっきりしない、といった理由で導入が進まないというケースも多い。
運用改善を行う上ではまず初めに、現在IT運用チームが行っている業務の中で、「具体的にどの作業に時間がかかっているのか」「自動化が進んでいない対応は何か」といった現状を確認し、課題点を確認することが重要である。
この結果から、AIOpsの機能により改善可能な項目を見極め、実際のIT運用業務への取り込みによる効果を想定して実装の判断をしていく必要がある。
図表5と図表6に、パフォーマンス・モニタリングや自動化に関しての現状や課題・効果を検討した例を示す。
このほかにも、ChatOpsを使用することで、運用担当者への障害情報や関連情報の通知をSlackやTeamsに連携できる。この通知には、監視コンソールへのリンクや対応する運用手順の情報なども含まれるため、運用担当者が早期に障害状況を把握し、対応を開始できるなどの効果も考えられる。
IBMでは、Watson AIOpsを使った自動化や運用手順書機能の実装例のデモをIBM Technology Showcase として紹介している。
デモデータではなく、実際のユーザー環境で取得されたメトリクスデータやログファイルのデータを預かり、アノマリー検知の検証確認を行うPoC(Proof of Concept)などのサービスも提供している。
また、クラウド上にWatson AIOpsでのPoC環境を構築するサービスを利用し、実際にユーザーが製品に触れ、適用イメージを具体化しながら効果を検証していくことも可能である。
AIOpsによる運用高度化の実現には、これらの実装例を参照したり、PoCサービスを活用することで、自社のIT運用における業務改善の目標を明確にして、適用範囲を広げていくことが重要であると筆者は考える。
著者
増田 健氏
日本アイ・ビー・エム システムズ・エンジニアリング株式会社
クラウド・イノベーション
シニアITスペシャリスト
1992年、日本アイ・ビー・エム株式会社に入社。システム運用管理分野のスペシャリストとして、金融・流通・公共・製造の大手ユーザーで運用管理システムの設計・構築プロジェクトに数多く参画。2015年にISEに出向し、100件以上のプロジェクトのテクニカル・コンサルタント・レビューを実施。近年はWatson AIOpsの検証や構築案件を担当している。
[i Magazine・IS magazine]