第152回ロボット工学セミナー実施報告
「ロボットのためのLLM・VLM利活用」
日時:2024/05/23(木) 09:50-17:20
会場:日立馬場記念ホール、及び、オンライン配信(zoom)
参加者:現地34名(申込41名)、オンライン114名(申込144名)
オーガナイザ:坂井亮(株式会社日立製作所)
サブオーガナイザ:瀧上孝太(オムロン株式会社)
セミナーURL:https://www.rsj.or.jp/event/seminar/news/2024/s152.html
発表:5名の講師による発表。講演は発表50分、質疑応答10分。パネルディスカッション60分。
第1話 自己教師あり学習によるビジョン基盤モデルの事前学習
中部大学 藤吉 弘亘 先生
近年提案されているVLMを含む基盤モデルの学習に欠かせない技術である自己教師あり学習の進展をご説明いただきました。特に、自己教師あり学習の基礎であるPretextタスクの様々な派生手法をご紹介いただいた後、対照学習及びMasked Image Modeling(MIM)の仕組みから使い方までわかりやすく解説頂きました。
第2話 ロボティクスにおける大規模言語モデル・視覚言語モデルの利活用
慶応義塾大学 杉浦 孔明 先生
ロボティクスへの利用が進められるマルチモーダルLLMの概要から近年の評価方法、ロボットへの適用事例を、分野の研究事例に加えて先生の研究室での研究事例も踏まえてご紹介いただきました。また、マルチモーダルLLMの今後の展望として、エッジデバイス向けの軽量化が進み、また、OSSモデルが商用モデルに性能面で近づくことによる、ローカル環境で実行可能なマルチモーダルLLMの将来的な普及についてご説明いただきました。
第3話 LLM・VLM の実ロボット応用例とその分類
東京大学 河原塚 健人 先生
本講演では、前半は河原塚先生のLLM/VLMをロボットに応用した研究事例のサーベイ論文内容をご説明いただきました。また、後半は河原塚先生の研究室におけるLLM/VLMのロボット応用研究をご説明いただき、前後半のご講演を経てロボットにとって重要な計画、及び、認識に関してLLM/VLMが活用できることをご説明いただきました。
第4話 ロボット基盤モデルの構築に向けて
東京大学 松嶋 達也 先生
ロボット動作をLLM/VLMの出力と紐づけるための学習に用いるデータセット(RT-Xシリーズ)とデータセットを用いたロボット基盤モデルの開発に関してご説明いただきました。データセットの共同開発者だからこそご存じの内情に加え、ロボット動作の学習の観点でのシミュレータの性能向上や重要性もご紹介いただき、実践的な情報も多くご提供いただきました。
第5話 大規模マルチモーダル物理基盤モデルとしてのロボティクス
早稲田大学 尾形 哲也 先生
人のように現実世界から得るマルチモーダルな情報が時空間的に制約されるロボットにおいては、ロボット動作と言語表現を結び付ける重要性を発達ロボティクスの知見を踏まえてご説明いただきました。また、言語や視覚情報をロボット動作に変換する方法として、世界に対する推論を都度実施してリアルタイムに動作を変更していく深層予測学習に基づくロボット制御が、多くのタスクを実現できることをご紹介いただきました。
パネルディスカッション
5人の先生方と現地・オンライン参加者の皆様方で、LLM/VLMの進展やロボティクス分野への適用に関してざっくばらんにお話しいただきました。オーガナイザが準備した話題に加え、参加者の方からの質問もあり、議論は大いに盛り上がったかと思います。特に、「LLM/VLMを適用するロボットは、人を模したロボットが良いか」、「モダリティと言語、ロボット動作の対応付け方法」といった議題は、盛んに開発が進むヒューマノイドロボットに知見があり、加速度的に進展するLLM/VLMの分野で最先端の研究を進めている先生方だからこそ、広く深い議論ができたかと思います。
おわりに
上述の通り、本セミナーでは、5人の先生方から、「LLM/VLMのロボット利活用」をテーマに、LLM/VLMの基礎からロボティクス分野への適用まで様々なお話を頂きました。第1・2話ではLLM/VLMの概要とその要素となる技術を、また、第3・4・5話ではロボットへの利用事例やロボットとの関係性を深くご講演頂けましたので、初学者の方から専門家の方まで幅広くご興味をもって参加いただける良い機会になったかと思います。
最後に、ご多忙の中お時間を確保くださりご講演をお引き受けいただいた先生方、運営を支えてくださったロボット学会事務局、サブオーガナイザの瀧上様、ご参加いただきました全ての方々に心から感謝申し上げます。