published at
|

AIエージェントのセキュリティと評価技術の新潮流



今日の arXiv は、AI システムを「作る」技術から「安全に運用する」技術へと研究の重心が移りつつあることを如実に示すラインナップだった。エージェントのセキュリティ、LLM の評価手法、ファインチューニングの目的関数、テキストプライバシーと、モデルを実運用に乗せるための課題に正面から向き合った論文が揃っている。純粋な能力向上だけでなく、信頼性・安全性・プライバシーという「デプロイの三要件」への関心が高まっている点は、業界全体の成熟を感じさせる。


AIエージェントのセキュリティ、Perplexityが NIST に直言

Perplexity が NIST/CAISI の RFI(情報提供依頼)2025-0035 への回答として提出した論文「Security Considerations for Artificial Intelligence Agents」は、一般公衆向けアジェンダ文書ではなく、フロンティアエージェントを実運用する企業の肌感覚をまとめた実務的レポートだ。

論文が列挙する脅威のなかでも特に重要なのが、プロンプトインジェクション・ツールコール改ざん・マルチエージェント間の信頼伝播の三つだ。プロンプトインジェクションはウェブ検索やドキュメント読み込みを伴うエージェントで現実の攻撃ベクタとなっており、外部コンテンツに悪意ある指示を埋め込まれるとエージェントが乗っ取られる。ツールコール改ざんは、MCP(Model Context Protocol)のような外部ツール呼び出し層を攻撃する手口で、エージェントが意図しないアクションを実行させられる。さらに複数エージェントが協調するシステムでは、サブエージェントへの権限委譲が連鎖的な信頼崩壊を引き起こしうる。

Perplexity の提言は、エージェントに付与する権限の最小化(最小権限原則)、ツール呼び出しのサンドボックス化、外部入力のサニタイズ層の設置の三点に集約される。これらは既存のセキュリティエンジニアリングの原則そのものだが、LLM が「判断」するという特性から実装が一段階難しい。「なぜそのツールを呼んだのか」をモデルに説明させてもモデル自身が欺かれていれば無意味、という根本的な難しさがある。

ビジネス観点では、エージェントセキュリティはすでにスタートアップの主戦場になっている。Robust Intelligence、HiddenLayer、Protect AI といったプレイヤーが AI 固有のセキュリティツールを提供しているが、まだ市場は黎明期だ。NIST が正式なフレームワークを策定すれば、エンタープライズ向けのコンプライアンス需要が一気に膨らむ。このレポートはその策定プロセスへの影響力行使でもある。

参考: arXiv - Security Considerations for Artificial Intelligence Agents


推論モデルをジャッジとして使う:非検証可能タスクの評価問題

「Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training」は、o1 や DeepSeek-R1 のような推論モデルを評価者(ジャッジ)として使う新しいパラダイムの可能性と限界を検証した論文だ。

背景を整理しよう。LLM の後訓練(RLHF、DPO 等)では、モデルの出力が「良いか悪いか」を判断する報酬シグナルが不可欠だ。数学・コーディングのように正解が明確な「検証可能タスク」では自動チェッカーが使えるが、文章の質・推論の妥当性・創作の面白さのような「非検証可能タスク」では人手評価か GPT-4 系のモデルジャッジに頼らざるを得なかった。推論モデルはテスト時計算のスケーリングが効くため、より長く考えてより正確な判断ができると期待されている。

論文の知見は楽観的でもあり慎重でもある。推論ジャッジはベンチマーク上では既存手法より高い精度を示したが、ポジション・バイアス(回答の提示順による判断のブレ)や自己一致性の欠如(同じ質問に対して判断がぶれる)という問題が残存する。特に「なぜその回答が良いのか」の根拠として示される推論チェーンが、実際の判断ではなく事後的な合理化になっているケースがある点は深刻だ。

実装コストの観点では、推論ジャッジは圧倒的に高い。o1 系モデルはトークンコストが通常モデルの数倍〜十倍になる。大規模な RLHF データ生成に推論モデルを使おうとすると、コストが数百万ドル単位になりうる。この非検証可能タスクの評価問題は、AGI への道を阻む本質的なボトルネックの一つであり、解決策が出れば業界全体のトレーニングパイプラインが変わる。

参考: arXiv - Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training


クロスエントロピーの呪縛を解く:特徴マッチングによるファインチューニング

「Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models」は、LLM のファインチューニングにおいて支配的なクロスエントロピー(CE)損失に真っ向から異議を唱える研究だ。

CE 損失の問題は構造的だ。CE は「教師強制」(teacher forcing)という学習様式を前提とし、各ステップで正解トークンが与えられた状態で次のトークン予測損失を最小化する。しかし推論時にはモデル自身が生成したトークンを入力として使う——この「学習時と推論時の分布のズレ」が様々な劣化(繰り返し、ハルシネーション、前の誤りへの脆弱性)の根本原因とされてきた。

この論文が提案する「特徴マッチング目的関数」は、個々のトークン予測ではなく、シーケンスレベルの特徴分布をターゲットにする。エネルギーベースモデルの枠組みを使い、モデルロールアウト下での系列全体の振る舞いが教師モデルの特徴空間と一致するよう学習する。直感的には「単語を当てる」から「文章としての特徴を合わせる」へのシフトだ。

論文が示すベンチマークでは、特に長いシーケンス生成と分布外入力への汎化で CE を上回る結果を報告している。ただし計算コストは CE より高く、特徴空間の定義方法によって性能が大きく変わるという設計上の課題も残る。CE の簡潔さと計算効率を代替できるかは今後の検証次第だが、「トークン単位の損失」という30年来の機械翻訳由来のパラダイムに挑戦している点は注目に値する。

参考: arXiv - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models


プライバシーと有用性の両立:STAMP の選択的差分プライバシー

「STAMP: Selective Task-Aware Mechanism for Text Privacy」は、テキストデータのプライバシー保護において長年の難題だった「プライバシー・有用性トレードオフ」を改善するフレームワークを提案している。

差分プライバシー(DP)によるテキスト保護の従来手法は、文中のすべてのトークンに均一にノイズを加える方式が主流だった。しかしこれでは「山田太郎」という固有名詞と「しかしながら」という接続詞に同じプライバシー予��を割き当ててしまう。プライバシーリスクが低い汎用表現を過剰に保護する分、センシティブな情報を保護するための予算が足りなくなるか、全体的に有用性が低下する。

STAMP の解法はシンプルで直感的だ。各トークンの(1)下流タスクへの重要度と(2)プライバシーリスクを同時に評価し、プライバシー予算を選択的に配分する。タスクに重要でかつセンシティブなトークンには厚くプライバシー保護をかけ、汎用トークンへの無駄な保護を削減することで、同じプライバシー保証のもとで有用性を高める。

応用先として最も有望なのは医療・法務・金融分野だ。カルテや契約書を外部 LLM に送って分析させたいが、患者名・病名・金額などをそのまま流せないという現実のニーズに直結する。現状では多くの企業がオンプレ LLM か、手動での個人情報マスキングという非効率な手段を取っているが、STAMP のような自動化フレームワークが成熟すれば市場は急速に広がる。このカテゴリでは Skyflow、Nightfall といったプライバシーテック企業が先行しているが、LLM 特化のソリューションはまだ黎明期だ。

参考: arXiv - STAMP: Selective Task-Aware Mechanism for Text Privacy


ストリーミング映像から空間を理解する:Spatial-TTT

「Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training」は、際限なく続く映像ストリームから空間構造をリアルタイムで理解・更新し続けるシステムを提案した研究だ。ロボティクスや自動運転、AR/VR への応用を念頭に置いている。

人間が部屋を歩き回るとき、一度見た壁の位置をきちんと記憶して、視野から外れても空間全体のマップを脳内に保持できる。現行の視覚 AI は静止画や短いクリップには強いが、「無限に続く映像から累積的に空間情報を更新する」という能力は弱い。単純にコンテキストウィンドウを長くしても計算コストが爆発するだけで根本解決にならない、というのが論文の出発点だ。

Spatial-TTT のアプローチはテスト時訓練(TTT)を応用する。推論中にモデルの一部パラメータを入力ストリームに合わせて動的に更新することで、「今いる空間」の情報を圧縮して記憶する。長大なコンテキストを保持するのではなく、空間の圧縮表現をパラメータに埋め込むという発想の転換だ。

実用化の観点では、オンデバイスで動作するロボットや AR グラスへの搭載が最有望のユースケースだ。クラウドに全映像を送り返すレイテンシも帯域コストも現実的ではないため、エッジでのリアルタイム処理が前提になる。Boston Dynamics のロボットや Apple Vision Pro のような空間コンピューティングデバイスで、このような技術が活きてくる。

参考: arXiv - Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training


拡散モデルが「考える」:EndoCoT の連鎖思考

「EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models」は、拡散モデルに内発的な推論プロセス(Chain-of-Thought)を組み込む手法を提案している。テキスト生成で大きな成功を収めた CoT を、画像生成の世界に本格輸入しようという試みだ。

従来の拡散フレームワークに推論能力を持たせる方法は、MLLM(GPT-4V や LLaVA 系)をテキストエンコーダとして使うのが主流だった。しかしこの方式には二つの根本的な限界がある。第一に、MLLM のテキストエンコーダは「推論の途中経過」を拡散モデルに伝える設計になっておらず、最終的なテキスト表現しか渡せない。第二に、MLLM と拡散モデルを別々のコンポーネントとして接続するため、エンドツーエンドの学習が難しくモデルが非効率に大きくなる。

EndoCoT はこれを「内発的」に解決する。拡散モデルのデノイジングプロセス自体を推論チェーンとして機能させる——つまり「まず大まかな構造を決めて、次に細部を詰める」という拡散の本質的なコースから細部への流れを、明示的な推論ステップとして設計する。外部の LLM に頼らずモデル単体で推論を完結させるため、「Endogenous(内発的)」と命名されている。

拡散モデルが本物の推論をできるようになれば、「赤いリンゴが青い背景の左上にある」のような複雑な空間関係の指定や、物理的に矛盾しない画像生成への道が開ける。DALL-E 3 や Stable Diffusion が苦手とする「テキストの正確な描写」や「複数オブジェクトの関係性制御」という課題の本質的な解決策になりうる。

参考: arXiv - EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models


まとめ

今日の論文群を通じて感じるのは、AI 研究が「モデルをどう作るか」から「どう安全に・信頼性高く・プライバシーを守りながら使うか」へと確実に重心を移しているという事実だ。Perplexity の NIST 向けセキュリティレポートや STAMP のプライバシーフレームワークは、その象徴的な表れといえる。一方で CE 損失への挑戦や EndoCoT のような基礎的な学習・生成パラダイムの刷新も続いており、底流での革新は止まっていない。エージェントが現実世界でより多くのアクションを取るようになるにつれ、セキュリティ・評価・プライバシーの三つの課題が産業の壁として立ちはだかってくる——今日の論文はまさにその壁を掘り進める作業の記録だ。

Sources