2024/03/06深層学習とマニピュレーション

論文／解説

初出：日本ロボット学会誌，2017 年 35 巻 1 号 p. 28-31

本ページでは，これまでに日本ロボット学会誌に掲載された解説記事の中から注目度の高い記事をHTML形式で紹介しています．HTMLへの変換時に著者紹介，キーワードなど一部の情報は省略しています．また，レイアウトはオリジナル記事とは異なります．

PDF形式のオリジナル記事はこちらでご覧になれます．引用する際は，本Webページではなくオリジナル記事を引用してください．

【解説】

深層学習とマニピュレーション

尾形哲也

1 はじめに

Amazon Picking Challengeに代表される，「一般物体」のハンドリングは，デモンストレーション自体は地味になりがちで，一般の方にはなかなかその意義が理解されづらい．しかし本学会誌の読者であれば（このような特集号が組まれることからも），これがロボット研究における最大課題の一つであることは容易にご理解いただけるだろう．

人間の居住環境で利用される日用品は，その形状，重さ，材質が極めて多様であると同時に，変形しやすく形状の精度もほとんどない．また雑多な環境光の中で，倒れたり，複数の物体が重なり合ったりしながら存在する．そのため，たとえ3Dスキャナなどで，その対象の極めて精度の高い3Dモデルを手にしたとしても，そのハンドリングは一般的に極めて難易度の高い問題になる．また定常的に対象の物体のモデルを手に入れることも難しい． Amazonでハンドリングされる商品は， 1日で数千種類増えるとも言われており，このようなアプローチが利用できないことは容易に想像できる．

このような背景のもと，現在ロボットにおける物体のピッキング，マニピュレーションにディープラーニング（Deep Learning: DL）を用いる手法が一般的となりつつある． DLは画像認識，音声認識，言語処理など多分野においてその有効性が確認されるとともに，様々な応用手法が毎日のように提案されている． DLは，一般に数千程度の入力を持った10層以上の階層型神経回路モデルを指す．その最大の特徴は，画像や音声など，多次元かつ大量のデータの処理において，従来専門家がその独自の知見によって設計，選択可能だった高次特徴量を，ほぼ考慮することなく高い性能を得られる点にある．具体的には，教師信号さえ与えられていれば，対象の高次元データとそれに対応する教師信号を，神経回路モデルに“ほぼそのまま”与えることで，必要な出力を得るための内部表現が， DL内に獲得される．そこで得られる性能は従来法を超える，特に一般物体認識においては（もちろん課題は限定的だが）人間をも凌ぐ成果が得られている．

本稿では，筆者らがこれまでに試みているDLを用いた物体把持とマニピュレーションに関する二つの研究の概要を，従来のDLを用いた研究例と比較する形で紹介する．第2章では一般物体の把持に関する基礎研究，第3章では柔軟物マニピュレーション研究を紹介する．第4章で以上の研究を受けた考察，およびまとめを行う．

2　CNNによる物体把持位置推定

DL技術の最も自然な応用先はロボットビジョン分野であろう． Ian Lenzらは， DLにより対象物の距離画像から把持のためのハンドの位置と方向（四次元）を出力させる手法を提案した[1]． R. Josephらは色（RGB）と深さ（D）テータから構成される三次元RGB-D画像から，最も画像に特化したDLモデルであるConvolutional Neural Network（以下CNN）を利用した物体の把持位置予測を行っている[2]．我々はこのアプローチの基本的性質を見極めることを目的として，深さ情報，およびカラー情報が認識に与える影響について確認する基礎実験を行っている[3]．以下にその概要を紹介する．

図1: 評価用CNNモデル

2.1 CNNの応用モデルと評価法

評価用モデルの概要を図1に示す．本研究ではCNNを用いて深さデータなしのRGB画像およびグレー画像から物体の把持位置予測を行った．一部の物体において本モデルから予測された把持位置を実ロボットに手先位置として入力し，動作生成を行わせた．

具体的には224 224ピクセルのRGB画像に対し，物体の把持位置ベクトルを与える．把持位置ベクトルは(x,y)はベクトルの中心座標， x， yはx軸に対する逆正接により回転角度を示す．また把持位置の面積をheight, widthで表す（図2）．把持位置ベクトルを与えた画像を1,000枚用意し，平行移動，回転させ30,000枚に増幅し，教師データセットとした．これは文献[4]を参考にした．

図2: 把持位置ベクトル

評価実験のロボットにはNextage Open [5]を用いた．学習済CNNに入力するRGB画像はロボットのマウントカメラ画像を用いる．画像から予測された把持位置ベクトルをロボットの二次元平面上の手先位置として入力し，把持動作を生成する．

従来研究で用いられた評価基準[2]を用い，教師データと予測把持位置の比較を行う．具体的には，教師データAと予測位置の（a）回転角度誤差30以内，（b）式（1）で示す合計面積（）に対する重複面積（）が25%以上，という2条件を満たした場合を成功として成功率を算出した． Accuracy=|A B||A B|

2.2 実験結果

教師データに対する学習の結果を図3に示す． RGB画像の成功率は79.7%であり， RGB-D画像をCNNで学習して予測を行った場合[2]に比べ，わずかながら性能が劣ったものの， CNNを利用しない従来研究の結果と比較して優れた性能を出している．

ここで興味深いのは，グレースケール画像を用いた場合は，著しく成功率が低下する点である．人間が把持位置を推定する際，カラー画像とグレースケール画像で大きな差異は現れないと考えられる．しかし実際のCNN学習においては，画像上の影や卓上のシミなどが大きく影響し，把持位置や方向といった定量的な値の出力では，大きく性能を落としてしまうのである^{^[*1]}．

図3: 把持位置予測成功率

3　End–to–Endのマニピュレーション

さて前章で紹介した事例に，少し違和感を感じた方もいるのではないかと思う．それは「評価基準として示した成功率は，ロボットの実際の動作を評価していない」という点である．従来研究との比較のために文献[2]で利用した評価基準「回転角度誤差30以内，重複面積が25%以上」を用いているが，この基準はあまりに荒い．実際に学習後のCNNを用いてNextageで動作を生成したところ，把持に成功するケースもあるが，その成功率は決して高いものとはいえなかった．

ここで重要なことは「物体の“画像”だけをいくら学習しても物体把持の情報は得られない」という点である．当然ながら学習プロセスには，把持をする主体の身体性，つまりロボットの身体構造とそこから生じうる動作の可能性が反映されなければならない．例えば，図2に示した把持位置ベクトルはグリッパーを想定した特徴量であるが，これがグリッパー機構全般において十分かつ最適な特徴量となっている保証はない．物体画像における把持可能領域を抽出する場合でも，その領域はどの主体のどのような動作にとって把持可能なのか，が当然考慮されなければならない．また同じハンドであっても，その開き具合やアプローチの方法によって，多様に変わるべきものである．つまり学習過程には，対象物体の画像のみならずそこから生成される動作が含まれる必要がある．

序章で述べたとおり， DLの最大の特徴は必要な構造の自己組織化にある．このように得られる入力から欲しい出力を直接学習する，という方法論は“End to End Learning”とよばれ， DLをシステムに適用する際に強力かつ本質的なアプローチである．

S. LevineらはロボットPR2を利用し，現時刻の1枚の視野画像入力から次時刻のロボットの複数関節を直接CNNで出力させることで，一連の動作を実現する手法を提案している．複数の動作について，物体位置変化などにロバストな動作が行えることを示した[6]．強化学習による行動探索が必要となるが，画像と動作を“直接”つなぐというEnd to End Learningの方法論を取ったため，画像特徴量（と動作パターン）の設計という問題を直接扱うことなく動作獲得を行っている．また同様の手法を14台のロボットアームに導入し， 80万回のピッキング動作の学習により多様な一般物体のハンドリングを実現している[7]．

以下，このEnd to End Learningの視点から，我々が行ったロボットによるタオルの折り畳みハンドリングに関する研究事例[8]を紹介する．

3.1 Programming by Demonstration

DLをロボットなどの実システムに応用する際，強化学習（深層強化学習）が有力とされる．確かに上記したEnd to End Learningの事例はいずれも強化学習を用いている．しかし，実際に応用される比較的大規模なロボットにおいて，大量の動作データを得るための実験は，ハードウェアの耐久性などの問題を含めて極めて大きなコストがかかる．

我々は，模倣，またProgramming by Demonstrationの枠組みが，有力なアプローチであると考え研究を展開している．つまりEnd to End Learningを，人間によって実現される動作を適切に再現するシステムに適用する試みである．ここで重要となるのは， Demonstrationによって伝えられるのは，その“軌道”ではなく，その“軌道が生成されるための構造”でなければならない．つまり「モータ出力の生成に必要だった考えられるセンサ入力」が統合される形で学習されなければ無意味となってしまうのである．

我々は， Wizard of Oz（WoZ）による遠隔操作を用いる手法を導入した． WoZは人間がロボット本体のセンサ情報を監視しながら遠隔操作で動作を行わせる方法である． WoZ を用いることで，強化学習のような探索を必要とせずに，短時間で複雑な動作を教示することが可能となり，またその動作生成に必要であった情報を利用した学習が可能となる．つまり動作生成によって得られたデータをDLモデルの教師信号として用いることで，ロボットの行動生成モデルを獲得させる．

3.2 提案モデル

これまで我々が行ってきた研究[9]を拡張し， Auto-encoder（AE）と Time Delay NN（TDNN）の統合モデルを用いた． AEは高次元の画像情報を低次元の特徴量に圧縮するDeep Convolutional AE（DCAE，図4 (a)）を用いた．運動情報である関節角度とDCAEから得られる画像特徴量の統合学習はTDNNが行う（図4 (b)）．

図4: 柔軟物体操作学習モデル

3.3 DLによる柔軟物操作行動学習

実験用ロボット先と同じくNextage Openを用いた．折り畳み作業の対象物体として，厚さ・色・大きさの異なる4種類の布を用意した．布はNextageアーム先端の可動範囲内でランダムに配置し，それぞれWoZシステムを用いて 10回ずつ折りたたみ操作のデータを収集した．収集時の動作パターンを図5に示す．

図5: Nextageによる柔軟物の折り畳み学習

具体的には操作者が把持動作を， Head Mount Display， 3Dマウスなどの各種デバイスによりNextageに教示する．まず布の一端を把持（図5， 1–3），他端を固定．把持した状態でWoZを Manual Controlに切り替え，折り畳み動作を実行する（図5， 4–5）．作業完了後，初期位置姿勢に戻る（図5， 6）．動作制御周期は0.1 [s]，一つの動作時間長は平均70秒である．

入力はNextage頭部に搭載された一つのカメラから取得したカラー画像（112 112 [pixel]），また二つのアーム6自由度とグリッパーの1自由度のデータを用いた．

図6: 布の種類別の実行結果

未学習の位置と角度で布を置き，折り畳み作業を実行した結果の概要を図6に示す．学習データをプログラム上再構成することで， 1回の折り畳み実行を30秒程度にまで短縮できる． Nextageは前方に置かれた布を畳む動作を繰り返し実行すること，その成功率がほぼ80%程度であることを確認した．また布の代わりに本（未学習）を閉じる動作も同様に可能になることを確認した．

また最新の結果では， TDNNをRecurrent Neural Network（RNN）に置き換えることで，よりスムーズな動作生成，大幅な動作時間短縮が行えることも確認している．

4　おわりに

本稿では，ロボットによる一般物，柔軟物のハンドリングを目的としたDLの応用法について主に筆者らの研究事例を中心に紹介した． DLによるEnd to End Learningは，物体の把持に必要となる特徴量設計の大部分を省略することが可能であり，極めて潜在的な可能性の高い手法である．

ここで重要なのは，本手法が利用できるロボットハードウェアの特性である．

本手法は（すでに気づかれている読者も多いと思うが）手先位置精度が求められる作業はほとんどできない．ニューロンの発火状態という連続値を，高い位置精度に変換し学習することは困難である．従来研究[6, 7]も我々の事例も，対象は一般物というそれ自体は精度がないものであり，操作の仕方も対象への“なぞり”が重要な要素となっている．そのため従来研究では関節自体が柔軟なPR-2を利用[6]もしくは，柔軟ハンドを独自に設計するなどしている[7]．また我々はNextage手首部にわずかに変形するバネ関節を埋め込むことで，机表面をなぞりながら布を掴む動作の学習を実現している．

このようにDLの学習によって実現する作業には，正確な制御ではなく，

ハードウェア側の柔軟性が必須の要求になる．このような方法論を考慮に入れた，新しいアームとハンドが，今後重要になってくると思われるのである．

本稿で紹介した研究は科研費基盤研究（A）（15H01710），および産業技術総合研究所人工知能研究センターの支援を受けた．ここに謝意を表する．

[*1] 物体認識タスクであれば，グレースケールにしても性能劣化は，それほど大きくないのではないかと予想される．

References

[1] I. Lenz, H. Lee and A. Saxena: “Deep Learning for Detecting Robotic Grasps,” International Journal of Robotics Research (IJRR), doi:10.1177/0278364914549607, 2014.

[2] R. Joseph and A. Angelova: “Real-Time Grasp Detection Using Convolutional Neural Networks,” IEEE International Conference on Robotics and Automation 2015, doo:10.1109/ICRA. 2015.7139361, 2015.

[3] 鈴木，新古，陽，高橋，菅野，尾形：“CNNによる二次元物体画像から実ロボットでの把持動作生成”，日本機械学会ロボティクスメカトロニクス講演会， 2P1-12b7, 2016.

[4] Robot Learning Lab, Deep Learning for Detecting Robotic Grasps, http://pr.cs.cornell.edu/deepgrasping/, 2015年7月4日現在．

[5] 川田テクノロジーズ株式会社：Nextage Open，http:/ nextage. kawada.jp/， 2015年9月21日現在．

[6] S. Levine, C. Finn, T. Darrell and P. Abbeel: “End-to-End Training of Deep Visuomotor Policies,” arxiv: 1504.0702, 2015.

[7] S. Levine, P. Pastor, A. Krizhevsky and D. Quillen: “Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection,” arXiv:1603.02199v4, 2016.

[8] P.-C. Yang, K. Sasaki, K. Suzuki, K. Kase, S. Sugano and T. Ogata: “Repeatable Folding Task by Humanoid Robot Worker using Deep Learning,” IEEE Robotics and Automation Letters (RA-L), doi:10.1109/LRA.2016.2633383, 2017.

[9] K. Noda, H. Arie, Y. Suga and T. Ogata: “Multimodal integration learning of robot behavior using neural networks,” Robotics and Autonomous Systems, vol.62, issue 6, pp.721–736, 2014.

尾形哲也（Tetsuya Ogata）

1993年早稲田大学理工学部機械工学科卒業．日本学術振興会特別研究員，早稲田大学助手，理化学研究所脳科学総合研究センター研究員，京都大学大学院情報学研究科講師，同准教授を経て， 2012年より早稲田大学基幹理工学部表現工学科教授．博士（工学）． 2009年から2015年まで科学技術振興機構さきがけ領域研究員， 2015年産業技術総合研究所人工知能研究センター招聘研究員， 2016年科学技術振興機構ACT-I領域アドバイザーを兼任．ニューラルネットワークおよび人間とロボットのコミュニケーション発達に関する研究に従事． 2013年日本ロボット学会理事． 2016年人工知能学会理事．