SEARCH
MENU

みのつぶ短信第31回「CoRL 2022: 力技ここまできたり!」


前回はRSJ2022直前のRO-MAN2022を報告したが,会議報告つながりでCoRL 2022 (Conferenec on Robot Learning) を紹介したい.前回と同様,日記風で進めよう.


2022年12月14日,午後2時の便で伊丹から成田経由でニュージランド航空の便で会場の都市オークランドに向かった.羽田からシドニー経由も検討したが,経由空港が一つ増え,5時間も長くなるので,成田からの直の便にした.現地はサマータイムで日本との時差は4時間進んでいる.ちなみに米国西海岸との時差は3時間で,距離感からすれば,奇異な感じがするが,サマータイムの為せる技であろう.翌15日の朝9時にオークランド空港到着時,雨で気温21度であった(写真1).天気予報では,会期中天候はよくなく,曇りか雨であった.

 

写真1


ホテルにバッグをおいて会議場のオークランド大学に向かった(写真2はホテルから会場に向かう道路脇の立派な樹木の並び).街の中にある大学でメインの会場の経済学部の建物は超近代的な建物(写真4:唯一天気の良かった17日に撮影)であったが,この建物の裏にある公共政策学部の建物は民家そのもの(写真3)で,文学部も同様であった.対照的である.

 

写真2

写真3

写真4


会議の概要を伝えよう.2017年からGoogleで始まったこの会議はロボット学習ということで,GoogleやDeep Mind主体の深層学習バリバリの会議である.筆者は日本から唯一のボードメンバーで,コロナ前の2019年には大阪で開催した.2020はMITでオンライン,2021はロンドンでハイブリッドで開催された.今回のCoRL 2022はウェブサイトにほとんどの資料があるか,タグれる.この報告でのメディアもすべてそこからであり.読者も容易にアクセス可能である(https://corl2022.org).査読過程であるが,62 Area chairsと567 Reviewersである.採択された論文に関しては,Rebuttalも含めてオープンである.投稿数504,採択は論文34(6.7%),ポスター163本であった.2021年との比較はスライド3を参照されたい(これは,Local ChairのMinas Liarokapis,University of Aucklandの作成したもの).Rebuttal過程により156の論文が評価があがり,24本の論文が下がったとのこと,ギャンブルと言われがちなが会議投稿論文査読であるが,Rebuttalにより,それが緩和出来る証であろうか?(スライド4).今回ハイブリッドであるが,in-personがメインであった(スライド5,6).参加者は米国が最も多く,ついで英国,中国,ニュージランド,韓国,ドイツ,オーストラリア,日本,シンガポールと続いたが,in-person参加者は韓国の現地参加率が群を抜いていた.ちなみに現地参加の日本人は,筆者とチュートリアル講演者の長隆之東大准教授2名だと思う.所属では,DeepMindがトップで以降は米国が続いた(スライド7~9).

 

スライド3

スライド4

スライド5

スライド6

スライド7

スライド8

スライド9


さて,15日のプログラムはSponsor Talkと称して,Google ResearchのVincent Vanhouckeが“Scaling up robot learning at Google”と題する講演を行った(写真5).内容はRobotics Transformer (RT-1)の発表で,題名から察する通り,大規模言語モデルを用いて,ロボットタスクの分類と適用であり,13万エピソード700種類のロボットタスクを13台のロボット(EDR)を17ヶ月駆動してデータを集めた力技である(ビデオ1参照).関連発表がSpecial Innovation Awardを受賞しており,のちほど触れる.

ビデオ1:https://robotics-transformer.github.io/img/rt1_mosaic_comp.mp4

 

 

写真5


もう一つのSponsor TalkはMuJoCo and more Open-Sourcing at DeepMindでMujoCoの開発者のトークであったが,大阪国際工科専門職大学の教授会があり,参加できなかった.しかし,バンケットでは同席した.Workshops / Demonstrationsでは,会場でボストン・ダイナミクスのスポットの半額以下のUnitreeのAliengo(と思う)のデモがあり,活発に動いていた(ビデオ2).Welcome Receptionは,Twin T-Rexが展示されていたAuckland Museumであり,建物最上階の3階で多数の参加者があつまり,久々の対面レセプションを楽しんでいた.筆者はIPAとプロセコを堪能した(写真6~9).

 

ビデオ2

 

写真6~9


16日は,Aude BillardによるKeynote A – “Machine Learning Methods for Real-time Control with TheoreticalGuarantees”から始まった.リアルタイム性の高いタスクに対して,敏速に制御する手法の理論的保証を担保する彼女のグループの一連の研究が紹介された.MIT Pressからの”Learning for Adaptive and Reactive Robot Control A Dynamical Systems Approach”[1]からの内容と思われる(写真10~14).

 

写真10~14


Tutorial Aとして, Jeannette Bohgによる“Representations and Representation Learning in Robotics”と題する講演があり,従来の定式化を踏まえてロボット深層学習系の表現問題を外観した.面白かったのは,現場で参加者にアンケートに答えてもらい,表現が唯一かタスクに依存して複数かに問に対して,均一分布様に回答が広がり(写真15,16),何が重要かの項目で「単純と圧縮」が1位だったものの,さまざまな項目が並び,研究者による多様性を表していた(写真17).

 

写真15

 

写真16

 

写真17


Planning and LearningのOral Session 1:で”Do As I Can, Not As I Say: Grounding Language in Robotic Affordances”と題する論文は発表され,Special Innovation Awardを獲得した.先程触れたRT-1に関連する内容で,17ヶ月の研究成果なので,多くの研究者が名を連ね,44名の共著者となっている.既存の大規模言語モデルを用い,価値関数を加えて,一文章の依頼から複数の時系列タスクの分解し,時系列行動の文章を作成し,それを実行した例が紹介されていた(写真18).記号接地が実現されたとしつつも,アフォーダンスが弱く,接地とLLMが乖離しており,即座のチューニングが必要で,失敗とLLMとのリンクもないことが課題として挙げられた.最大のボトルネックはロボットスキルとのことであった.

 

写真18


同セッションのもう一つのトークとして,”Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations”(写真19)を挙げたい.これは,Best Paper Award Finalistで,Best Paper Awardはのがしたものの,面白い研究であった.模倣学習において,教示者の教示がプア(部分的で物理的に実現不可能)であっても,それを補う手法で,GAIL(Generative Adversarial Imitation Learning)の改良版である.デモとして,人間が適当に4脚ロボットの胴体だけをヒックリ返してバク転の軌跡を示したのち,シミュレーションで学習し,実機で実現した模様のビデオを示す(ビデオ3).オリジナルGANのmin-max loss (CEGAN)では勾配消失の課題があり,最小二乗GAN(LSGAN)が提案されているが,最初に提示された教示が学習者の能力を遥かに超えると,作用しなくなる.そこで,それに対応すべくWasserstein lossを用いている.さらに入力を長さHの時系列とし,胴体の高さz,重力ベクトルgを観測空間の測度として,並進速度v,角速度ωを出力としている.今後,入出力のバリエーションを追加して,さまざまな動的運動スキル学習に拡張予定とのことであった.

ビデオ3:https://sites.google.com/view/corl2022-wasabi/home

 

写真19


この日の夜にカンファレンス・バンケットがMuseum of Transport and Technologyで開催された.各種戦闘機や旅客機が展示されたホールの中でのバンケットであった.筆者のテーブルに最後にやってきたのが,先に示したMujoCoの開発者のYuval Tassa氏らと実行委員長のKen Goldbergであった.IPAと各種ワインをKenのワイン御託を聞きながらエンジョイした.Local Chair:Minas Liarokapis, University of Aucklandが先に示した会議報告のスライドを示していた(写真20~25).

 

写真20~25


17日の土曜日は,Best Paper Awardを獲得した"Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning"の発表があった.ロボットの行動結果を受動的な観察だけでは困難(鍵のロックの確認など)だが,環境と相互作用するロボット行動で簡単に確認できることを利用し,そのような行動を自律的に発見するロボットの強化学習法を提案した.評価するロボットの学習として,相互作用の報酬関数“interactive reward functions” (IRFs)を定義し,これを利用して,重さの異なる積み木の積み上げ,スクリューの回転の確認行動を自発的に生成させた(写真26).

 

写真26


また,Best System Paper Awardを獲得した"Legged Locomotion in Challenging Terrains using Egocentric Vision"の発表もあった.最初に観測から距離マップを作成する際,ScanDotsと呼ばれるまばらなサンプルレ点だけの距離を用い,最初に事前に与えられる質量や摩擦係数などの環境情報による強化学習からオンボードセンシングのエゴ距離マップ,体性感覚を用いた教師あり学習でターゲットアクションを学習する2段階からなる.実に様々な屋外環境で走破する映像は結構迫力があった(ビデオ4)[2].

ビデオ4:https://vision-locomotion.github.io


18日最終日はKeynote Cとして,Google Brain ResearchのAleksandra Faustによる “Towards Scalable Autonomy”であった.自律性をどのようにスケールアップするかで,これまでのアプローチを概観し,特にTransformersの勃興に注視した(写真27,28).これは,大規模言語モデル(LLM)が使い物になり始め,これにロボットの行動データとを組み合わせ,ロボット行動のテキスト生成を可能にしたRT-1にも言及した.今後の課題として,ヒューマン・エージェント相互作用における信頼,新たなスキル教示法のスケールアップ,想定外分布への対応などをあげた.

 

写真27

 

写真28


この4日間会議で缶詰だったので,会議後ハーバー近くのレストランを訪れ,生牡蠣などをIPAとシャルドネで堪能した(写真29~33).

 

写真29~33


[1] https://mitpress.mit.edu/9780262046169/learning-for-adaptive-and-reactive-robot-control/

[2] https://vision-locomotion.github.io

 

浅田稔

元会長,現在,大阪国際工科専門職大学 副学長,及び大阪大学先導的学際研究機構 共生知能システム研究センター特任教授