プレスリリース

安全なSociety 5.0に向けて－現実的なネットワーク環境での強化学習ペンテストエージェントの学習－

安全なSociety 5.0に向けて
－現実的なネットワーク環境での強化学習ペンテストエージェントの学習－

ポイント

強化学習ペネトレーションテストエージェント用の現実的な学習環境の作成をサポートする、PenGymというフレームワークを開発しました（以下「本研究」）。このフレームワークは、実際のネットワークホストとセキュリティ脆弱性を含む様々で複雑なシナリオに対応しています。
実験結果では、現実的な学習環境として PenGym を使用する利点と有効性が実証され、PenGym で学習したエージェントは、シミュレーションで学習したエージェントと比較し、優れたペネトレーションテストの性能を示しました。
最適化により、エージェントがネットワークホストで実際のアクションを実行すると、PenGym はシミュレーションよりも合理的な時間で学習することができ、このアプローチで学習したエージェントに高い実現性をもたらします。

　北陸先端科学技術大学院大学（学長・寺野稔、石川県能美市）次世代デジタル社会基盤研究領域のBEURAN Razvan准教授、NGUYEN Huynh Phuong Thanh大学院生（博士後期課程）は、株式会社KDDI総合研究所（以下KDDI総合研究所）と共に、強化学習ペネトレーションテストエージェント用の現実的な学習環境の作成をサポートするフレームワークを開発しました。
　ペネトレーションテスト（以下「ペンテスト」）^*1 は、既存の脆弱性を特定して悪用することで、ネットワークシステムのセキュリティを評価するために使用されます。しかし、手動で行われる従来のペンテストは時間がかかることと高度なセキュリティスキルが求められることが重要な課題となっています。既存の研究では、シミュレーション環境で学習された強化学習（reinforcement learning、RL）^*2 ペンテストエージェントを作成することで、これらの問題に対処していますが、実際のシステムに展開した場合には、いくつかの課題があり、さらなる検討が必要です。
　そこで本研究では、現実的なネットワーク環境でRLペンテストエージェントを学習するためのフレームワークであるPenGymを開発しました。PenGymは、実際の侵入テストアクションの実行をサポートし、ネットワーク環境の作成を完全に自動化することで、優れた学習性能を提供します。このように、PenGymは、実際のネットワークインフラストラクチャシステムに確実に展開して、セキュリティ体制を自動的に評価できる信頼性の高いRLペンテストエージェントの学習を可能にし、安全なSociety 5.0の実現に貢献します。

【研究背景と内容】

　ネットワークシステムとインフラストラクチャのセキュリティを確保することは、サイバーセキュリティの重要な側面です。ペンテストは、ネットワークセキュリティ体制を評価するための効果的な方法です。近年、従来の手動で時間のかかる方法の問題に対処するために、侵入テスト手順を自動的に実行するための効率的なアプローチが開発されています。一つのアプローチは、強化学習 (reinforcement learning、RL) 手法を使用することです。この手法は、人間の侵入テスト担当者の行動を模倣しながらも、速度、規模、精度が向上した自動エージェントを作成するために適用されています。これらの RLペンテストエージェントを学習させるための主な方法として、様々なシミュレーション環境が導入されています。ただ、エージェントのアクションと環境の状態に対する定義済みの定数と確率に大きく依存しているうえに、モデル化されていないことにより、現実世界の動作を再現する際に不正確さが生じる可能性があります。さらに、シミュレートされたネットワークは、実際のネットワークの構成とトポロジを正確に表さない可能性もあります。これら制約により、エージェントの精度とパフォーマンスが低下することが課題となっています。

　この課題に対処するために、本研究では、RLペンテストエージェント向けの効果的で信頼性の高い現実的な学習フレームワークである PenGym を設計し、実装しました。PenGymを使用すると、RLエージェントはネットワーク環境内の現実的なホストで実際のアクションを実行できます。この目的のために、フレームワークには、RLエージェントとトレーニング環境間の相互作用のための一連のペンテストアクションを実装するアクション/状態モジュールが含まれています。さらに、トレーニング環境は、人間のサイバーセキュリティ演習に使用されるサイバーレンジ^*3 技術に基づいており、複数のペンテストシナリオに従って自動的に作成されます。PenGymの実行時間性能を向上させるために、いくつかの最適化手法を実装しました。その結果、本学が開発したフレームワークではアクションモデリングの必要性がなくなり、シミュレーションを用いた環境と比較し、ネットワークとセキュリティをより正確に表現できます。

図1: PenGymフレームワークアーキテクチャの概要

　本研究で採用しているように、実際の侵入テストアクションの実行を可能にするために実際のネットワーク環境を使用するアプローチは、シミュレーション環境と比較して有望な結果をもたらします。特に、本学の実験では、RLペンテストエージェントの現実的な学習環境としてPenGymを使用することの利点と有効性が実証されました。したがって、PenGymで学習したエージェントは、シミュレーションで学習したエージェントと比較し、実際のネットワークで優れたペンテスト性能を示しました。

図2: PenGymでエージェント学習に使用された現実的なネットワーク環境の例

　得られた実験結果に基づいて、本研究では、ネットワーク環境をシミュレーションするために複雑な論理モデルを作成するという従来のアプローチをより現実的な方法で置き換えることが可能となり、様々なネットワーク関連の研究分野に変化をもたらすことが期待できます。さらに、現実的な学習環境は、他の研究分野にも応用できます。重要な例の一つは、RLペンテストエージェントを使用した自動サイバー防御です。これは、実際のネットワークインフラストラクチャの保護メカニズムを強化し、Society 5.0の信頼性に貢献するために使用できます。この分野の他の研究者の潜在的な活動をサポートするために、PenGymをGitHubでオープンソースとしてリリースしました。
PenGymソースコードのURL：https://github.com/cyb3rlab/PenGym

　本成果は、2024年10月9日に「Computers & Security」誌のオンライン版に掲載されました。

【論文情報】

掲載誌	Computers & Security（Elsevier社発行）
論文題目	PenGym: Realistic training environment for reinforcement learning pentesting agents
著者	Huynh Phuong Thanh Nguyen, Kento Hasegawa（KDDI総合研究所）, Kazuhide Fukushima（KDDI総合研究所）, Razvan Beuran
掲載日	2024年10月9日にオンライン版に掲載
DOI	https://doi.org/10.1016/j.cose.2024.104140

【用語説明】

^*1. ペネトレーションテスト(ペンテスト)：
ネットワークシステムのセキュリティ特性の評価をすること。

^*2. 強化学習 (reinforcement learning、RL)：
インテリジェントなエージェントが動的環境でアクションを実行し、そのアクションに関連する総報酬を最大化する機械学習の種類のこと。

^*3.サイバーレンジ：
実際のホストとネットワークトポロジーで構成されるネットワーク環境で、サイバーセキュリティ演習のインフラストラクチャとして機能する。本研究の場合は、エージェント学習用のインタラクティブプラットフォームをさす。

令和6年10月18日

国立大学法人北陸先端科学技術大学院大学

ニュース・イベント

安全なSociety 5.0に向けて－現実的なネットワーク環境での強化学習ペンテストエージェントの学習－

ニュース・イベント

安全なSociety 5.0に向けて －現実的なネットワーク環境での強化学習ペンテストエージェントの学習－

安全なSociety 5.0に向けて－現実的なネットワーク環境での強化学習ペンテストエージェントの学習－