日本のロボット研究の歩みHistory of Robotics Research and Development of Japan2011Integration, Intelligence, etc.〈インテグレーション・知能ほか〉自己調整学習メカニズム:オープンエンドな環境で発達するエージェントの自律学習行動原理
星野 由紀子 | ソニー株式会社(現在:カワダロボティクス株式会社) |
河本 献太 | ソニー株式会社 |
野田 邦昭 | ソニー株式会社(現在:早稲田大学) |
佐部 浩太郎 | ソニー株式会社 |
この論文は、ロボット研究開発アーカイブ「日本のロボット研究開発の歩み」掲載論文です。
本論文では,オープンエンドな環境で発達するエージェントの自律的な連続学習の実現法として自己調整学習メカニズムを述べる.提案手法の学習プロセスは以下の2つのメタ認知的なストラテジーによって構成される:(a)期待される不確実性のレベルを調整する行動ストラテジーの切り替え,(b)現在の主観的な不確実性による学習ス
トラテジの切り替え,である.(a)では、不確実性を増す「探索行動」と不確実性を減らす「同定行動」を切り替えることで、主観的な不確実性をある一定のレベルに保ち、(b)では、確実性が高い場合は「全体学習」を、不確実性が高い場合には「局所学習」を行うことで、モデルの安定的な構造学習を進めることを可能にした。
このメカニズムを用いて,効率がよく安定的なオンライン学習をシミュレーション実験で示し,さらにバッチ学習よりも能力が高いことも示した。事前知識を持たないセンサデータとアクションデータの時系列を用いて、エージェントの置かれた環境の「地図」をエージェント自身の経験から作られた構造を利用しながら、オンラインで効率よく獲得していけることを示すことができた。
2012年 第26回日本ロボット学会学会誌論文賞受賞