SEARCH
MENU

日本のロボット研究の歩みHistory of Robotics Research and Development of Japan2011Integration, Intelligence, etc.〈インテグレーション・知能ほか〉自己調整学習メカニズム:オープンエンドな環境で発達するエージェントの自律学習行動原理


星野 由紀子ソニー株式会社(現在:カワダロボティクス株式会社)
河本 献太ソニー株式会社
野田 邦昭ソニー株式会社(現在:早稲田大学)
佐部 浩太郎ソニー株式会社

この論文は、ロボット研究開発アーカイブ「日本のロボット研究開発の歩み」掲載論文です。

本論文では,オープンエンドな環境で発達するエージェントの自律的な連続学習の実現法として自己調整学習メカニズムを述べる.提案手法の学習プロセスは以下の2つのメタ認知的なストラテジーによって構成される:(a)期待される不確実性のレベルを調整する行動ストラテジーの切り替え,(b)現在の主観的な不確実性による学習ス トラテジの切り替え,である.(a)では、不確実性を増す「探索行動」と不確実性を減らす「同定行動」を切り替えることで、主観的な不確実性をある一定のレベルに保ち、(b)では、確実性が高い場合は「全体学習」を、不確実性が高い場合には「局所学習」を行うことで、モデルの安定的な構造学習を進めることを可能にした。
このメカニズムを用いて,効率がよく安定的なオンライン学習をシミュレーション実験で示し,さらにバッチ学習よりも能力が高いことも示した。事前知識を持たないセンサデータとアクションデータの時系列を用いて、エージェントの置かれた環境の「地図」をエージェント自身の経験から作られた構造を利用しながら、オンラインで効率よく獲得していけることを示すことができた。

2012年 第26回日本ロボット学会学会誌論文賞受賞

不確実性制御行動(a)不確実性と学習効率の関係 (b)不確実性軸とフロー理論のスキル-チャレンジ平面のマッピング
不確実性制御行動(a)不確実性と学習効率の関係 (b)不確実性軸とフロー理論のスキル-チャレンジ平面のマッピング
自律発達エージェントのシステム構成図
自律発達エージェントのシステム構成図
(a) 迷路状の環境(b) 学習したHMMの内部状態(人がわかりやすいようにエージェントは知らない位置情報を用いて作図)(円:内部状態 矢印:内部状態間の遷移) (c) 5つのアクションシンボル (d) 16個の観測シンボル
(a) 迷路状の環境(b) 学習したHMMの内部状態(人がわかりやすいようにエージェントは知らない位置情報を用いて作図)(円:内部状態 矢印:内部状態間の遷移) (c) 5つのアクションシンボル (d) 16個の観測シンボル

動画


対応論文


星野由紀子, 河本献太、野田邦昭、佐部浩太郎:自己調整学習メカニズム:オープンエンドな環境で発達するエージェントの自律学習行動原理

日本ロボット学会誌, Vol. 29, No. 1, pp. 77-88, 2011.

関連論文


[1]Kenta KAWAMOTO, Yukiko HOSHINO, Kuniaki NODA, Kohtaro SABE: "Self-regulation mechanism for continual autonomous learning in open-ended environments", In Proceedings of International Conference on Epigenetic Robotics (EpiRob 2009), pp. 73-80, 2009.

[2]K. Sabe, K. Kawamoto, H. Suzuki, K. Minamino and Kenichi Hidai: “Reward-free Learning using Sparsely-connected Hidden Markov Models and Local Controllers", The 9th International Conference on Epigenetic Robotics, 2009.

[3]Kenta KAWAMOTO, Kuniaki NODA, Takashi HASUO, Kotaro SABE: "Development of object manipulation through self-exploratory visuomotor experience", In Proceedings of IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob 2011), 2011.

[4]Kuniaki NODA, Kenta KAWAMOTO, Takashi HASUO, Kotaro SABE: "A generative model for developmental understanding of visuomotor experience", In Proceedings of IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob 2011), 2011.

[5]L. Chrisman: “Reinforcement Learning with Perceptual Aliasing: The Perceptual Distinctions Approach”, Proceedings of the Tenth National Conference on Artificial Intelligence, pp.183–188. AAAI Press, 1992.

[6]P. R. Cavalin, R. Sabourin, C. Y. Suen and A. S. Britto Jr.:“Evaluation of Incremental Learning Algorithms for An HMMBased Handwritten Isolated Digits Recognizer”, Proceedings of The 11th International Conference on Frontiers in Handwriting Recognition, pp.1–6, 2008.