SEARCH
MENU

みのつぶ短信第32回「CoRL2023会議報告」


すっかりご無沙汰していたら,1年経ってしまいました.あけましておめでとうございます.本年もよろしくお願いします.年始早々,能登半島地震,それに救援物資搬送予定だった海保機とJAL機の衝突炎上,羽田空港大混乱と3日続けて災難が降りかかりました.これから,何が起こるか,不安ではありますが,心身健康を保って,対処していきましょう.


ちょうど一年前の短信と同じ会議のネタですが,前回ほどエキサイティングではなかったので,タイトルも普通です.CoRL2023(Conference on Robot Learning 2023)は,2023年11月6日から9日かけて,米国アトランタのジョージア工科大学ではなく,Hiltonの系列ホテル:The Starling, Curio Collection by Hiltonで開催された(写真2枚:スライド1).全ての情報は,ホームページのhttps://www.corl2023.orgから,手繰ることが可能だ.


2017年Googleの本拠地Mountain Viewで始まった会議は,チューリッヒ(2018),大阪(2019),ボストン(2020, バーチャル),ロンドン(2021,バーチャルメイン),オークランド(2022,オンサイトとバーチャル)と北米,欧州,アジア/オセアニアと3地域を巡っている(スライド2左上).


浅田は採択された11のワークショップ(スライド3左下とスライド5)のうちの一つ「Bridging the Gap between Cognitive Science and Robot Learningin the Real World: Progresses and New Directions」の提案者でもあったので,6日のWS開催日から参加した.正確には,11月5日の午後,ワシントンダレス空港を経由してアトランタに午後3時前に入った.曇で摂氏16度であった.


バーチャルとオンサイト両方だが,当然のことながらオンサイト参加者が圧倒的に多く,912人,ワークショップ参加者は650人に上った.58%が学生で非常に若く活発な学会である(スライド2右上).論文投稿は498編,口頭発表論文が33編,ポスターが166編で計,39.9%の採択率で昨年とほぼ変わらない.口頭発表はメインの会場(スライド4左下)で余裕があったが,ポスター会場は発表者と参加者でごった返していた(スライド3右下).様々なロボットのデモが展開され,参加者を魅了した(スライド3右の写真,スライド4左上).バンケットは会場からバスで15分ほどのジョージア水族館で開催された.


採択された論文のキーワードとその数でトップはマニピュレーションで76,ついで強化学習で38,実演からの模倣が29,自然言語が25,タスクと運動計画が21と続いた(スライド6).本稿では,2つの論文を紹介したい.一つは,Best Systems Paper Awardを受賞した「RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools」と題する論文で,シュウマイなどの柔軟物のマニピュレーションタスクである.柔軟変形物体をポイントクラウド表現を用いて知覚し,道具ー物体相互作用をグラフニューラルネットワーク(GNNs)でモデル化し,道具分類と自己教師学習による方策学習を組み合わせて,操作プランを作成し実行するRoboCookを開発した.各道具ごとの20分の実環境相互作用データのみで,汎用の柔軟物操作タスク,餃子づくりや文字クッキーなどを実行可能.外乱や素材の違いにも対応している(https://hshi74.github.io/robocook/, https://openreview.net/pdf?id=69y5fzvaAT).作業手順は以下である.


(1) 適当なサイズに生地をカット
(2) 生地を引き伸ばして,整形
(3) 生地を平たくするためにプレス
(4) さらに平たくするためにロール
(5) 餃子の皮を円形にカット
(6) 余分な生地を除去
(7) 皮を取り上げ,型に配置する
(8) 中身を足して
(9) 型を閉じて開く.
矢印は移動方向(スライド7,8)


知覚入力はRGB-Dカメラからのロボット作業スペースのポイントクラウドで,生のポイントクラウドから以下の手順
(a) 興味ある部分の切り出し
(b) 生地のポイントクラウドの抽出
(c) 防水メッシュの再構築
(d) メッシュ内のポイントサンプルのためにサイン入り距離関数(Signed Distance Function (SDF))の利用
(e) 道具のSDF内のポイント除去
(f) 表面の300ポイントをサンプル
(スライド9)


生地の握り,押し込み,引き伸ばしの過程のダイナミクス.左:初期状態,右:GNNによる予測(PRED)と真値(GT)を比較すると,ほぼ正しく予測している様子がわかる(スライド10).


PointNetに基づく分類ネットワークが,現在の観測と目標の生地の状態に基づいて,適切な道具を同定する.自己教師型方策ネットワークは,これらを入力とし,操作行動を出力する.視覚フィードバックにより制御ループを閉じている(スライド11).


方策ネットワークアーキテクチャを示す(スライド12):生地の握り,押し込み,引き伸ばしのパラメータ化された行動空間と方策ネットワークを訓練するための合成データをいかに生成するかを示している.ハードウェアとセットアップを示す(スライド13).各操作ごとに多種多様なツールが準備されている.アルファベットROBCKの生成で他と比べて良好な結果を得ている(スライド14).また,異なる材料でも対応している(スライド15).


RoboCookの限界の一つは,生地がツールにくっつくという失敗が時々起こることで,解決策としては,自動エラー修正システムを設計することである.また,計画を単純化するために,道具の動作空間に関する人間の事前設定に依存している.このような単純化は,新しい道具に対して簡単に指定できるので,汎化を制約するものではない.
もう一つの限界は、人間がサブゴールを定義することである.これを取り除くには,より高いレベルの時間的抽象化とタスクレベルのプランニングが必要である.最後に,RoboCookはケーブルや布に適用するためにトポロジー推定を追加する必要があるが,これはこの研究のスコープではなく,将来課題である.


2つ目の論文はCoRL2023のBest Paper Awardの論文「Distilled Feature FieldsEnable Few-Shot Language-Guided Manipulation」である.自己教師ありや言語教師ありの画像モデルは,汎化に重要な世界に関する豊富な知識を含んでいるが,多くのロボットタスクでは,2次元画像特徴にはしばしば欠けている3次元幾何特徴の詳細な理解が必要である.本研究は,マニピュレーションタスクにおいて,このギャップを埋める手法を提案している.正確な3次元幾何特徴と豊富な意味情報を有する2次元基盤モデルを組み合わせるために蒸留特徴場を活用している.全体の流れを示す(スライド16).最初に3次元シーンをスキャンして3次元幾何情報を取得し.次に2次元基盤モデルからパッチレベルの高密度特徴を抽出し,それらを蒸留して特徴場を形成する.最後に,言語誘導のマニピュレーションを実現する(https://f3rm.github.io, https://openreview.net/pdf?id=Rb0nGIt_kh5).


もう少し詳しくみてみよう.スライド17は,6自由度ポーズの表現する処理の流れである.(a) バーチャルリアリティ(VR)でグリッパーのポーズをマグカップ上に記録する.(b) グリッパーの基準フレーム内の固定されたクエリ点セットを介して,連続的な局所場を近似する.(c)これらのクエリ点における特徴ベクトルを連結し、n(ここではn = 2を使用)個のデモを平均する.これにより,タスク埋め込が得られる.


スライド18は,言語ガイド付き操作のためのパイプラインを示す.(a)言語クエリを視覚言語モデルCLIPで符号化し,一連のデモの平均的なクエリポイント特徴との類似度を比較する.マグカップのふちを掴むデモは、"Pick up the Bowl"との類似度が最も高い.(b) ポーズ推定コストJposeと言語ガイドによる重みをかけたJlangを最小化することにより,CLIP特徴フィールドを用いて把持案を生成し,最適化する.(a)で選択されたデモをJposeで使用し,テキスト特徴量と平均クエリポイント特徴量を用いて言語誘導の重みを計算する.


具体的な把持と配置の5つのタスクを示そう(スライド19の左).(a)マグカップの口や取っ手の把持(6自由度ポーズの表現する流れの図参照)タスク,(b)ドライバーの取っ手の把持,(c)イモムシの耳の把持,(d)コップの物干し台への配置のタスクが示されている.グリッパーのポーズは、2つのデモンストレーションのいずれかを示している.


新しい物体への汎化例(スライド19の右)で,上段はマグカップはデモンストレーション用のものよりはるかに大きいケース.下段は,ラックはペグが短く,断面が四角いケースで,デモ用のラックは円筒形だった(スライド19の左(d)参照).


乱雑なシーンにおける把持の例を示そう(スライド20).(a) イモムシをDINO特徴場で把持するデモンストレーション(色はPCA、赤い点はクエリ点)で,(b)複数のおもちゃが重なった乱雑なシーンのケース.挿入図は推定された上位10個の把持を示している.イモムシの耳がデモと同じ特徴を持っていることがわかる.(c) ロボットがイモムシの把持に成功している様子を示す.


言語ガイド付き操作の実行例を示す(スライド21).(上段)言語クエリが与えられたときのヒートマップ.(下段)ロボットが再スキャンせずに順次把持を実行.CLIPは、"blue screwdriver"と指示されたときに,バッグオブワードモデルのように振る舞うこことができて,青いボウルへのヒートマップがやや高い値を示す.画像収集や処理時間の課題は残るものの,蒸留,少数データ,基盤モデルなど最新AI技術満載の論文である.


マニピュレーションと4脚のロコモーションがメインの会議で,最新のAI武器をフルに駆動した論文が多かった.また,参加者が若く,非常に元気な会議である.日本からのボードメンバーが浅田のみであり,任期も今回のCoRL2023で終え,次年度からは慶応大学の杉浦孔明教授が替わってボードメンバーに着く.今年のCoRL2024はミュンヘンで開催予定である.

 

CoRL2023会議報告 CoRL2023 Report (PDF:8.10MB)

 

 

スライド1

 

 

スライド2

 

 

スライド3

 

 

スライド4

 

 

スライド5

 

 

スライド6

 

 

スライド7

 

 

スライド8

 

 

スライド9

 

 

スライド10

 

 

スライド11

 

 

スライド12

 

 

スライド13

 

 

スライド14

 

 

スライド15

 

 

スライド16

 

 

スライド17

 

 

スライド18

 

 

スライド19

 

 

スライド20

 

 

スライド21

 

浅田稔

元会長,現在,大阪国際工科専門職大学 副学長,及び大阪大学先導的学際研究機構 共生知能システム研究センター特任教授