現在は、第3次AIブームと言われている。進化したAIの活用はさまざまな分野で進んでいるが、ストレージの世界では運用改善や信頼性、可用性の向上などに役立てようという動きが活発化している。今回は、その背景や具体的内容を紹介する。
ストレージ管理・監視における課題
昨今、高速のオール・フラッシュ・ストレージが急速に浸透している。大幅な性能向上により、多くのユーザーがストレージの長年の課題である性能問題から解放されている。
性能向上自体はよいことだが、管理や監視の課題がなくなったわけではない。課題のある状態に慣れて当たり前になっていたり、以前より十分速いという理由で性能に関して何もせずに放置しているのかもしれない。ある日突然、大きな災難に見舞われないように、問題がないと思われる状態でも常に状況を可視化し、確認しておく必要がある。
こう言うと、「いや、きちんと監視している」との反論もあるだろう。障害イベントをSNMPやeメールなどでリアルタイムに転送し、障害を即時に検知している。性能に関する重要項目の閾値を設定して即座に超過を検知している。あるいは、HDDの一時エラー回数やSSDの書き込み回数などを閾値監視して、一部の障害を事前検知している。こうした状況であれば、従来の基準から見て十分な監視であり、問題が発生する確率も低いと考えられる。
しかしこれらの監視は、あくまで障害発生後の通知・検知が中心である。熟練者がその場で見ていれば気付くような不具合の兆候にまで、対応しているわけではない。実際に問題が起きてからの対処と一部の単純な傾向判断にとどまっている。熟練者の高度な判断まではサポートできていない。ここにまだ改善の余地がある。
さらに、ほかの課題もある。たとえば性能監視ツールでさまざまなメトリック情報を見やすくグラフ化していたとしても、それを読み解ける管理者は極めて少ない、あるいは現場にいないのが現実である。
たとえ同じく「秒当たり1万回のI/O」であっても、1つ1つのI/Oの大きさ、ReadとWriteの割合、順次処理かランダム処理か、あるいはその組み合わせの割合などのパターンに加え、そのI/Oを処理しているストレージ装置の構成、RAID、ドライブの種類、さらに装置のアーキテクチャまでもが影響して、内部負荷や限界は大きく異なる。そのため、コンピュータ技術者であってもストレージの専門知識をもたない場合は、容易に結果を読み解けない。
従来のツールがあまり普及していない背景の1つとして、優れた性能監視ツールを導入しても、うまく使いこなす自信がないために、導入理由や費用対効果を明確に示せないことがあると考えられる。
情報収集と分析の方法が
高度化の鍵
管理・監視を高度化させる鍵となるのが、情報収集・分析の方法である。現状では基本的に情報はどこかに蓄積しておき、定期的あるいは何かのイベントが発生したら分析するケースが大多数であろう。また解析用のデータを蓄積するのは、各ユーザーに導入された機器、装置自体や管理サーバーに接続されているストレージ、というのが通常である。
しかし構成情報や性能情報、障害に至る前の軽微な変化を含むイベント情報などがリアルタイムに参照できていたとしたら、どうだろうか。リアルタイムに使用状況を把握することで、さまざまな対応を可能にするという考え方は、電力利用でのスマート・メーターの活用イメージに近い。時系列での情報の把握は、省エネのヒントや新しい電力供給プランの提示などですでに活用されており、実態を把握したうえでのきめ細かな需要予測により供給の無駄も減らせる。
ストレージ管理に目を向けてみよう。たとえば構成に関しては、容量が不足しそうな場合に閾値監視で通知することで、大きな問題は避けられるだろう。しかしリアルタイムにデータが送られているなら、その増加状況を時系列で把握し、より早いタイミングでの注意喚起や予測に活用できる。
性能に関しても、単なる時間帯ごとの傾向や経年での変化だけでなく、今日は負荷がいつもと明らかに違う、あるいは使用中の装置・構成の性能が極めて悪いといった状況を把握し、先回りした問題解決が可能になる。今までにないこうした対応には、その前提として時系列でのきめ細かな情報把握が必要であり、さらに高度化させるには、最終的にはリアルタイムな情報把握が求められる。
また情報の蓄積場所としても、ユーザー先ではなくベンダー側にあれば、何か製品上の問題が見つかった場合にいち早く調査して、該当する構成のユーザーに早期かつ的確に通知する、あるいはベストプラクティスから外れる使い方を速やかに指摘できる。
さらに複数機器の情報を集約していれば、導入構成や設定、負荷、使用コード・レベルなど複雑な条件下で発生する問題の根本原因(Root Cause)を早期に探り当てる、使われ方の情報を製品の安定化に役立てる、次の製品開発に活かすなど、さまざまなプロアクティブな取り組みが可能となる(図表1)。
IBM Storage Insights for Spectrum Control
リアルタイムなストレージ監視とSaaSを活用したクラウド環境での分析により、今日の複雑なストレージ基盤管理を支援するソリューションとして、「IBM Storage Insights for Spectrum Control 」(以下、Storage Insights)がある。
Storage Insightsは高いレベルの可視性を提供し、IBM独自の分析機能と実績あるデータ管理を統合する。これによりストレージ環境を最適化し、迅速な対応や管理コスト削減に寄与するなど、IBM ストレージ製品の管理に大きな課題解決をもたらす。
Storage Insightsは、推測ではなく事実に即したリアルタイムな状況把握、分析に基づくデータ管理、洗練されたGUIなどのインターフェースにより、図表2のように6つの課題を解決する。また主要な機能として、以下を備えている。
・アプリケーションごとのデータ管理
・直観的なダッシュボード(図表3)
・未使用ストレージの再使用
・データおよびストレージの最適化
・即時の洞察の獲得
・ブロックおよびファイル容量の予測
・データ配置の最適化
・パフォーマンスの監視
Storage Insightsは主要なIBMストレージ製品に対して、一部の機能を除いた簡易版の無償ライセンスが提供される。無償版でも、一般的なストレージ管理の範囲であれば十分対応可能だが、さらに予測や最適化など、より高度な管理を必要とする場合には、有償ライセンスを導入する。簡単な操作で、無償版からそのままアップグレードできる。
またStorage Insightsは、オンプレミス環境でのストレージ管理ソフトウェア「IBM Spectrum Control」のストレージ・システム管理機能をSaaS型で提供するクラウドソリューションであることから、初期投資や構築費用が抑えられ、クイックスタートが可能である。また有償版を使用した場合でも月額設定で簡単に始められ、いつでも利用を中止できる。
ユーザーサイトにデータ収集用サーバーを用意する必要はあるが、仮想サーバーにも対応しており、導入は容易なので、IBM ストレージ製品を導入した際にはぜひ利用を推奨したい(図表4)。
現時点のStorage Insightsでは、ストレージ管理に関する専門知識が必要とされる場面は少なくない。しかしAIは日々進化しており、ユーザーとともに学習し、SaaSゆえにサービス内容も使いながら改善していける。スキル面の課題が解決されるのも、それほど遠くはないだろう。
今後の発展
リアルタイムな情報収集とAIを活用したストレージ監視は、今まで実現できなかったプロアクティブな保守やきめ細かなガイドを提供し、あたかも現場に専門家が常駐しているようにスキルレベルを向上させ、高次元の可用性を提供する。同時に、複雑化するストレージ管理業務を省力化していくのは間違いない。
また分析エンジンであるAIが進化することで、導入後も継続的にユーザーシステムの安定稼働向上に寄与していく。さらに分析情報が大規模に一元化されるビッグデータにより、新たな気づきや、より高次元の改善も期待できる。ベストプラクティスの提案はもちろん、利便性の高いカスタマイズの提示や、個別の環境では難しかった特定機能の利用実績の把握・集計なども可能となる。
このほかSaaSのメリットとして、個別の分析・レポート基盤をユーザー環境で保有する必要がないことに加え、現時点では実現できていないことでも、短サイクルで可能にし、使いながら改良していける基盤であることが大きい。
AIとSaaSを活用した仕組みは、ストレージに限らず、サーバーやネットワークなどの他の機器であっても対応できる汎用性を備えるため、システム全体の運用改善や安定性向上に向け、適用対象が今後増えていくと期待される。
著者
佐藤 龍一 氏
日本アイ・ビー・エム株式会社
金融第一事業部
テクノロジー推進部
ICPアドバイザリー ITアーキテクト
1990年、日本 IBM 入社。 メインフレーム製品のテストおよび技術支援を担当後、2000年よりストレージ製品の技術サポートを経て、2004年からストレージ製品のプリセールスに従事。関西および西日本のユーザー担当を経験し、昨年から再びメガバンク・グループの担当に復帰、IBMストレージの支援を継続している。
[IS magazine No.21(2018年9月)掲載]