NRIセキュアテクノロジーズ株式会社(以下、NRIセキュア)は、AIエージェント[i]システムの内部状態を可視化し、従来手法では検出困難だった脅威を検出するセキュリティ診断サービス「深層型AI Red Team(以下、本サービス)」の提供を、本日開始します。本サービスでは、独自開発したツール「ai-guard(エーアイガード)」[ii]を使って、AIエージェント内部に潜む脅威を可視化します。さらに、専門家による知見とAI技術を組み合わせることで、より高度な脅威の検出を可能にしました。
◆AIエージェントの脅威の約7割が、従来手法では検出困難
近年、AIエージェントの導入による業務効率化が急速に進む一方で、AIエージェント固有のセキュリティインシデントが増加しています。AIエージェントは、非決定論的な振る舞い[iii]、自律的な連鎖実行[iv]、適応的な学習[v]、分散的な相互作用[vi]といった特性を持ち、従来のセキュリティ対策では対応が難しい場合があります。従来のAIセキュリティ診断や診断自動化ツールは、チャット画面など外部インターフェースを中心に検証してきましたが、AIエージェントでは内部動作や相互作用に起因する脅威が確認されています[vii]。
NRIセキュアの分析によると、OWASP[viii]が定義するAIエージェントの15の脅威のうち、11項目(73%)は従来のアプローチでは検出困難であることが明らかになりました(ご参考を参照)。
◆本サービスの概要と特長
従来の手法では検出困難な脅威に対応するため、NRIセキュアは内部状態を可視化して診断するアプローチを開発しました。AIエージェントの自律的な実行能力の悪用や、AIエージェントが果たすべき目的の改変、正当な権限と機能を組み合わせた攻撃など、外部からの観察が困難なケースを想定した診断にも対応可能です。これにより、AIエージェントシステムの大幅な安全性向上が期待できます。
本サービスの主な特長は、以下の2点です。
1.独自ツールによる内部状態の可視化
独自開発したツール「ai-guard」により、マルチエージェント環境を含む内部動作(メモリやエージェント相互作用等)を、お客様のプログラムを変更することなくリアルタイムで分析します。AIエージェントの推論プロセス、メモリ状態の変化、エージェント間通信などを包括的に可視化することで、OWASPが定義する15項目の脅威すべてに対応可能です[ix]。
2.専門家とAIのハイブリッドアプローチ
NRIセキュアの専門家が、可視化された内部状態を観察しながら、従来の診断や標準的なソリューションでは検出困難な攻撃シナリオを立案し診断します。これにAIを活用した効率的な自動検出を組み合わせることで、品質と効率性を両立した診断を実現します(図を参照)。