日本のロボット研究の歩みHistory of Robotics Research and Development of Japan2011Integration, Intelligence, etc.〈インテグレーション・知能ほか〉自己調整学習メカニズム：オープンエンドな環境で発達するエージェントの自律学習行動原理

星野　由紀子	ソニー株式会社（現在：カワダロボティクス株式会社）
河本　献太	ソニー株式会社
野田　邦昭	ソニー株式会社（現在：早稲田大学）
佐部　浩太郎	ソニー株式会社

この論文は、ロボット研究開発アーカイブ「日本のロボット研究開発の歩み」掲載論文です。

本論文では，オープンエンドな環境で発達するエージェントの自律的な連続学習の実現法として自己調整学習メカニズムを述べる．提案手法の学習プロセスは以下の２つのメタ認知的なストラテジーによって構成される：(a)期待される不確実性のレベルを調整する行動ストラテジーの切り替え，(b)現在の主観的な不確実性による学習ストラテジの切り替え，である．(a)では、不確実性を増す「探索行動」と不確実性を減らす「同定行動」を切り替えることで、主観的な不確実性をある一定のレベルに保ち、(b)では、確実性が高い場合は「全体学習」を、不確実性が高い場合には「局所学習」を行うことで、モデルの安定的な構造学習を進めることを可能にした。
このメカニズムを用いて，効率がよく安定的なオンライン学習をシミュレーション実験で示し，さらにバッチ学習よりも能力が高いことも示した。事前知識を持たないセンサデータとアクションデータの時系列を用いて、エージェントの置かれた環境の「地図」をエージェント自身の経験から作られた構造を利用しながら、オンラインで効率よく獲得していけることを示すことができた。

2012年第26回日本ロボット学会学会誌論文賞受賞

不確実性制御行動(a)不確実性と学習効率の関係 (b)不確実性軸とフロー理論のスキル-チャレンジ平面のマッピング

(a) 迷路状の環境(b) 学習したHMMの内部状態（人がわかりやすいようにエージェントは知らない位置情報を用いて作図）（円:内部状態　矢印：内部状態間の遷移) (c) ５つのアクションシンボル (d) 16個の観測シンボル

日本のロボット研究の歩みHistory of Robotics Research and Development of Japan2011Integration, Intelligence, etc.〈インテグレーション・知能ほか〉自己調整学習メカニズム：オープンエンドな環境で発達するエージェントの自律学習行動原理

関連記事

環境モデルと作業スキル統合

ロボットサービスイニシアティブ

福祉ロボ安全性評価