IBMは5月9日、年次イベント「Think 2023」にて、新しいAIとデータのプラットフォームである「IBM watsonx」を発表した。ChatGPTなど生成AIの登場を背景に、基盤モデル作成を核にした新しいAI戦略への転換である。
「Think 2023」に登壇したIBM Reserchのシニア・バイスプレジデント兼ディレクターであるダリオ・ギル氏は、IBM watsonxを核としたIBMの新しいAI戦略を語るに際して、まず適切なガバナンスを備えた生成AIおよび基盤モデルの重要性を指摘しながら、「単なるAIユーザーになるのではなく、AIの価値を創造する人になる必要がある。AIユーザーは、単に誰かのAIモデルを使用するだけだが、それはあなたのモデルではない。モデルもデータも、あなたにはコントロールできない」と語る。つまりこれからは、各自が社内で自分たちのChatGPTを構築する必要があると言っているわけだ。
ここで鍵になるのが、基盤モデル(Foundation Model)である。従来の大規模自然言語処理モデルでは大量の時間やリソース、そして膨大な学習の計算量が課題であったが、大量かつ多様なデータによる事前学習で準備され、さまざまなアプリケーションの基盤になり得る大規模なAIモデル、すなわち基盤モデルがそれを解決する。
基盤モデルはスタンフォード大学のAI研究所が最初に構想し、画像と自然言語処理の領域でGPT-3、BERT、DALL-E 2などが先駆けとなり、その能力の可能性を世界に示した。基盤モデルはAI開発の新たなパラダイムなのである。
これからのAIモデルは、ラベルのついていないデータによってまず事前学習され、そのあとタスクごとにわずかなファイン・チューニング作業によって作成される。短いプロンプト(AIへの指示、生成のヒントとなるデータ)を入力するだけで、こういったモデルを使用するシステムは、驚くほどレベルの高いエッセイや複雑な画像などを生成できることは周知のとおりだ。しかもそうしたモデルは、高度な文章や画像の生成方法を専門に学習しているわけではない。
AIに注目している企業は、生成AIや機械学習機能を含むAIモデルを、信頼できるデータ、スピード、ガバナンスを用いて迅速に組織全体で学習・調整・展開できるような、包括的な技術を必要としている。
それに応えて、IBMがリリースしたのが、IBM watsonxである。これは基盤モデル作成のワークフローをend to endの全ライフサイクルにわたって実現するためのプラットフォームである。ライフサイクルとは、データの準備、モデルのトレーニング、モデルの検証、チューニング、そしてアプリケーションやソリューションへの展開である。自社のデータで訓練された基盤モデルは、最も貴重な企業資産となることは間違いない。
IBM watsonxは3つの製品群で構成されている。
まず、「IBM watsonx.data」。これはモデルを訓練し、調整するための大規模なキュレーションデータリポジトリであり、最先端のデータ管理システムである。
次に、「IBM watsonx.ai」。これは従来の機械学習と基盤モデルの訓練、検証、調整、配備を行うためのエンタープライズスタジオである。
そして、「IBM watsonx.governance」。その名のとおり、信頼できるAIワークフローを実現するAIガバナンス・ツールキットである。堅実で適切なガバナンスは、企業のAI活用のコアであるという考えに基づく。
作成された基盤モデルは、クラウドでもオンプレミスでも運用可能で、必要な場所に効率的にデプロイして実行できる。そして展開されたモデルは、多様なアプリケーションで使用可能である。ギル氏によれば、「たとえばWatson Assistantに基盤モデルを組み込み、システムでの技術生成では、Watson Assistantに扱ってほしいトピックを記述して、それに対応した会話フローを生成する」といった利用方法が可能になる。
このように、IBM watsonxによって、多彩なデータから、信頼され、管理され、デプロイされ、すぐに提供できるモデルへと移行し、そのモデルをさまざまなアプリケーションにスケールできる。モデルがデプロイされると、IBM watsonx.dataとIBM watsonx.aiの両方で継続的にモニターし、更新していく。この一定のプロセスを、ギル氏は「データ・アンド・モデル・ファクトリー」と呼んでいる。
またギル氏によれば、IBMはすでに20以上のモデルを制作しているという。これらの基盤モデルは、IBM製品、Red Hat製品、あるいはIBMのパートナー製品に導入されている。さらに12以上の基盤モデルは、15以上のIBM製品で使用され、ISVが利用できるIBM NLPライブラリーに登録されている。
IBM watsonxを構成する3つの製品群の概要は、以下のとおりである。
IBM watsonx.data
管理されたデータとAIワークロードに最適化され、オープン・レイクハウス・アーキテクチャ上に構築された特定用途向けのデータ・ストア。クエリー、ガバナンス、オープンデータ形式によるデータのアクセスと共有に対応する。提供開始は2023年7月を予定。
このソリューションは、オンプレミス環境とマルチクラウド環境の両方でワークロードを管理できる。
watsonx.dataにより、ユーザーは単一のエントリー・ポイントからより堅牢なデータにアクセスでき、同時に目的に応じた複数のクエリー・エンジンを適用して洞察を得られる。
また、組織の既存データベースの自動化、統合などのガバナンスのためのツールとセットアップやユーザー・エクスペリエンスを簡素化するツールを組み込んで提供する。
IBM watsonx.ai
オープンかつ直感的なユーザー・インターフェースを通じて、従来の機械学習と、基盤モデルを活用した新しい生成AI機能の両方を学習・検証・調整・導入できる、AI構築のための企業向けスタジオ(ツール・機能群)。提供開始は2023年7月を予定。
AIスタジオは、データの準備からモデルの開発、展開、モニタリングまで、データとAIのライフサイクル全体を促進するさまざまな基盤モデル、学習と調整のツール、費用対効果の高いインフラストラクチャを提供する。
また、このスタジオには基盤モデル・ライブラリーが含まれており、ユーザーは IBM がキュレーション・学習した基盤モデルに簡単にアクセスできる。IBM の基盤モデルは、堅牢なフィルタリングとクレンジング・プロセス、監査可能なデータ・リネージュに裏付けられた、大規模な企業データのキュレーション・セットを使用している。一部のユーザーにベータ版技術のプレビュー提供を開始している基盤モデルの初期セットは、以下のとおりである。
fm.code
開発者の生産性を向上させ、多くのIT業務を自動化できるよう、自然言語インターフェースにより、開発者がコードを自動生成できるように構築されたモデル。
fm.NLP
特定のドメインや業界固有のドメインのための大規模言語モデル(LLM)のコレクションで、バイアス(偏り)をより簡単に軽減できるキュレーション・データを使用し、ユーザーのデータを利用して迅速にカスタマイズできる。
fm.geospatial
気候やリモート・センシング・データを基に構築したモデルで、自然災害のパターン、生物多様性、土地利用などの ビジネスに影響を与える可能性のある地球物理学的プロセスの変化を理解し、備えることを支援する。
IBM watsonx.governance
信頼できるAIワークフローを実現するAIガバナンス・ツールキット。提供開始は今年後半を予定。
ガバナンスを運用するソリューションで、手動のプロセスに関連するリスク、時間、コストを軽減し、透明性があり、説明可能な成果を導出するために必要なドキュメントを提供する。
顧客のプライバシーを保護し、モデルのバイアスやドリフト(精度の低下)を能動的に検出し、組織が倫理基準を満たすための仕組みを提供する。
またIBMは今後、以下のような主要ソフトウェア製品にwatsonx.aiの基盤モデルを実装していく予定である。
Watson Code Assistant
生成AIを活用し、開発者が英語の簡単なコマンドでコードを自動生成可能にするソリューション。提供開始は今年後半の予定。
AIOps Insights
コードとNLPのための基盤モデルで強化されたAI運用(AIOps)機能でIT環境全体のパフォーマンスの可視性を高め、IT運用(ITOps)マネージャーとサイト・リライアビリティー・エンジニア(SRE)が、より迅速かつコスト効率の高い方法で障害を解決可能にする。
Watson AssistantとWatson Orchestrate
IBMのデジタルレイバー製品は、従業員の生産性と顧客サービス体験の向上に向け、NLP基盤モデルと組み合わされる予定である。
Environmental Intelligence Suite (EIS)
地理空間基盤モデルを搭載し、企業が独自の目標やニーズに基づき、環境リスクに対処し低減するための、カスタマイズされたソリューション構築が可能になる。プレビュー版が今年後半に利用可能になる予定。
[I Magazine・IS magazine]