日本のロボット研究の歩みHistory of Robotics Research and Development of Japan1991Integration, Intelligence, etc.〈インテグレーション・知能ほか〉人間が実演して見せる作業の実時間視覚認識とそのロボット教示への応用

國吉康夫	東京大学大学院情報理工学系研究科
井上博允	東京大学名誉教授
稲葉雅幸	東京大学大学院情報理工学系研究科

この論文は、ロボット研究開発アーカイブ「日本のロボット研究開発の歩み」掲載論文です。

國吉・稲葉・井上は，人間が手で連続して行った積み木組立て作業を実時間で視覚認識し，意味のある行為単位に分節し記憶した後，別の作業台上で異なる初期積み木配置を与えられて，観察したのと同等の作業をロボットアームで実行するというシステムを構築した．

教示時と実行時で状況を変えることで，「個々の行為の結果は同じだが，具体的な運動は状況に応じて異なる」という計画レベル模倣の特徴を捉えた．認識システムは，「何かに向かって動く」といった動きのタイプとその時間区間を表現する動作モデルと，「あの辺に積み木がある」という空間中の局所領域とその状態を表現する環境モデル，そして，一時記憶・情報統合・注意制御を司る，ワーキングメモリに相当する注意機構からなる．

注意機構が，視覚入力に応じて動的に動作と環境のモデル要素を選択・結合し「あそこの積み木をつかんだ」という記憶を生成・保持すると共に，次に注視すべき場所と視覚特徴を動作の文脈から予測・指示する．そして，予期した視覚特徴の検出や突然の運動の変化があると，動作の切れ目として認識する．その瞬間，能動的注視で得た単純で局所的な情報（物体のシルエットや辺の見え方の変化）と現在の文脈から行為を識別する．

その後，システムは認識した行為系列を分析し，何を作ろうとしたか，その中間状態は何か，を推論し，この計画に寄与しない意味不明な行為を削除する．こうして得られた手順の記憶から動作を１個ずつ想起し，実行時の積木の視覚認識に基づき再具体化して作業を実行した．

ただし，上記のシステムは，黒い机の上30cm四方の空間内の白い直方体積木数個を対象とし，これらを片手で持ち上げ，運び，置き，辺合わせする動作の組合せからなる作業のみを認識できた．認識アルゴリズムは固定的で，想定から外れた動作や視覚の誤差によって破綻した．新奇動作の学習や，実行時の適応性，より柔軟な情報表現と文脈の扱い，など数多くの課題を残した．

添付論文[1]では、単純な積み上げ作業の例が示されているが、その後、アーチ、支柱上の逆アーチ、四脚テーブル、辺合わせ操作、などの組立て作業の教示実験にも成功している。システムと実験の総合論文としては[2]を参照されたい。また、背景にある認知科学的理論については[3]が代表的論文である。その後、本研究のアイディアは、さらに、他者の行動を認識して、相手を助ける行動を行うという「観察に基づく協調」への発展も見た[4]。

以上のようにシステム構成を試みることで，動作表現，空間表現，視覚特徴，注意，記憶，文脈，といった機能要素をどのように連携させれば行為認識の機能が成立するかという問題に接近することができた．本研究で扱った行為模倣の認知モデルや行為文脈と能動的注意に関する問題は、近年、脳の高次認知において話題になっているミラーニューロンやワーキングメモリなどとの関連で重要性が増している。また、人間の行動観察や実演による教示は、人間共存型知能システムのキーテクノロジとして重要であり、マルチメディアやロボット学の分野で多くの関連研究がなされている.人間の行為の認識と理解、行為模倣と学習は、今後もさらに発展が期待されるトピックである。

日本のロボット研究の歩みHistory of Robotics Research and Development of Japan1991Integration, Intelligence, etc.〈インテグレーション・知能ほか〉人間が実演して見せる作業の実時間視覚認識とそのロボット教示への応用

関連記事

視覚強化学習

逆運動学不良設定性の自然解消

自己調整学習メカニズム