2023/12/01学生編集委員会企画:第41回日本ロボット学会学術講演会レポート (オーガナイズドセッション：基盤モデルの実ロボット応用 (2/3))

1 はじめに

2023年9月11日から14日に仙台国際センターで開催された第41回日本ロボット学会学術講演会のセッション参加レポートを行う．本内容は，基盤モデルの実ロボット応用 (2/3)である．本セッションは8件の発表で構成される．

2 発表内容

2.1 基盤モデルを活用した自然言語による多様なタスク実現に向けたロボットシステムの統合 [1]

本発表では，家庭用ロボットの競技会のRoboCup@HomeにおけるGeneral Purpose Service Robot (GPSR)競技に向けた，音声認識・物体認識・行動計画・環境認識に基盤モデルを用いたシステムを提案した．この競技では，家庭環境でロボットは人から指示を受け取り，質問応答から物体の運搬まで多様なタスクを遂行する．そこで複数の基盤モデルでシステムを構築し，競技要件に合わせるためにプロンプトエンジニアリングでシステムの調整を行った．このシステムにより，“Take a bowl and place it on the shelf.”などの指示を達成し，RoboCup@Home2023 GPSR部門では第2位，総合第3位という結果を得た．

筆者は，考察で挙げられた“獲得していないアクションを必要とするコマンドの実行ができない課題もある”について，例えばどういったアクションが必要になったかという点に関心を持った．

2.2 世界モデルベースの深層強化学習による脚が出るための広筋と腓腹筋の協調 [2]

本発表では，世界モデルベースの深層強化学習で二足ロボットの動作獲得を行い，脚が自然と前に出るための広筋と腓腹筋の協調動作を行った．先行研究では，ロボットの広筋と腓腹筋の制御タイミングを適切に決定できず，離床後に脚が素早く前に振りだせない課題があった．そこで，世界モデルベースの深層強化学習にDreamerV2を採用し，片脚のハードル飛び越えタスクで，ロボットの動作獲得を行った．結果として，ロボットの跳躍動作を獲得でき，ハードルの飛び越えを実現した．
筆者は，ロボット自らが獲得した駆動パターンは，既に知られた人間の筋活動パターンに類似したものか，それともロボットの身体特性に合ったものが得られたかという点に関心を持った．

2.3 ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成 [3]

本発表では，生活支援ロボットの物体配置時における衝突予測をEnhanced Nearest-neighbor Captioning with Hypothesis AugmeNTation (ENCHANT)で事前に行い，物体間の衝突に関するキャプションを生成した．先行研究では，衝突物体の特徴抽出が不適切，キャプション品質が不十分であった．ENCHANTは大規模言語モデル(LLM)で訓練データの拡張を行い，Parallel Cross Attentional DecoderとSegment Feature Extractorで，配置領域の物体の特徴抽出とキャプション品質を改善した．実験では，キャプションを評価する全ての指標で比較手法の性能を上回った．

筆者は，大規模言語モデルによるデータ拡張を行い続けると，性能は一定レベルに収束するのか，それとも向上し続けるのかという点に関心を持った．

2.4 大規模言語モデルの修正提案に基づくロボットの行動計画の明確化 [4]

本発表では，LLMが人の言語指示における曖昧性を分析し，質問により情報不足を解消することで，ロボットの行動計画の改善を行った (図1)．LLMを活用したロボットの行動計画は目覚ましい成果を遂げているが，LLMに入力する自然言語は多義性や類義性などの曖昧性が生じ，LLMが人の意図した行動を生成しないことがあった．人が対話でロボットの行動を修正する方法もあるが，人が逐次的に修正指示を行うことは負担が大きい．そこでLLM自身が指示の曖昧性を分析し，質問で得た結果をロボットの行動計画に反映した．実験では，LLMに与える指示の設計コストを軽減可能なことを示した．
筆者は，LLMが質問することで曖昧性を解消する回答が得られることを仮定しているが，得られない場合はどのようなことを検討しているかという点に関心を持った．

図1 LLMの修正提案に基づいたロボット行動計画の明確化

2.5 大規模言語モデルによるタスク実行管理器生成法とRoboCup JapanOpen @Home League GPSRタスクへの応用 [5]

本発表では，人の言語指示からLLMを用いてロボットの行動関数を組み合わせ，ロボットが行動を順次実行するシステムを提案した．このシステムは行動関数として7個の関数を有し，目的地まで移動，物体把持，質問に答えるなどが含まれる．また，ロボットが取った行動の結果を次の行動計画に反映する機能，行動関数に入力する値の曖昧性を解消する試みも行った．このシステムをロボットに導入し，RoboCup Japan Open 2022 @Home GPSR競技で1位という結果を得て，システムの有効性を示した．
筆者は，このシステムを用いてもGPSR競技で得点できなかった人の指示は何かという点に関心を持った．

2.6 砂利環境での触覚ビジョンセンサを用いた世界モデルに基づく連続跳躍 [6]

本発表では，足部触覚ビジョンセンサをロボットの足裏に装着し，足裏情報を世界モデルベースの深層強化学習の入力とすることで，砂利環境での連続跳躍を実現した．触覚ビジョンセンサにマーカ変位方式を採用し，マーカの動きをカメラで撮影することで画像から触覚情報が得る．触覚情報を得た後に，世界モデルベースの深層強化学習のDreamerV2で学習した結果，砂利や平地環境での連続跳躍に成功した．また，別の深層学習モデルを用いて触覚情報から床反力を推定し，蹴りに近い周期的な動作の獲得も行った．

筆者は，触覚ビジョンセンサを用いずに世界モデルベースの深層強化学習で連続跳躍を行うことはどの程度難しいかという点に関心を持った．

2.7 大規模視覚-言語モデルとデータベースを用いたロボットの記憶蓄積とユーザーへの共有 [7]

本発表では，データベースと基盤モデルを活用したロボットの記憶蓄積システムを提案した．データベースに，ロボットのカメラ画像，ロボットの発話，ロボットの音声認識結果，Chatツールにおける会話，タスク情報，ステートマシン情報が格納される．Chatツールに人の呼び掛け文が入力されると，呼び掛け文に近い内容をデータベースから参照し，返答文を基盤モデルを用いて作成する．

筆者は，会話のやり取りは複数回に渡って行うことができ，新たに入力された人の会話も考慮し，システムは返答できるのかという点に関心を持った．

2.8 視覚的基盤モデルを用いたTrimodal Cross-Attentional Transformerに基づく再配置対象の検出 [8]

本発表では，家庭環境で目標状態や現在状態から再配置すべき物体を検出 (Rearrngement Traget Detection (RTD))を扱い，深度情報と物体のセグメンテーション情報を活用したTrimodal Cross-Attention Encoderを提案した．従来の研究では，ドア開閉の深度変化，複雑な物体や小物体のセグメンテーションの性能に課題があった．そこで，深度情報でドア開閉の問題に対処し，Meta社が開発したSAMを用いてセグメンテーション性能を向上させた．結果として，RTDタスクにおいて提案手法がmIoUとF1-scoreで比較手法を上回る性能を得た．

筆者は，家庭環境にはボトルやコップを含めて透明物体が多く配置されているが，それらにはどういった対処を検討しているかという点に関心を持った．

3 おわりに

本稿では，OS4: 基盤モデルの実ロボット応用 (2/3)の報告をした．ロボットの行動計画，物体のセグメンテーションなど様々な基盤モデルの活用方法が見られた．筆者は基盤モデルを活用したロボットの行動計画に関する研究をしており，このセッションの発表はとても興味深かった．

参考文献

[ 1 ] 辻知香葉, 綱島颯志, 保呂蒼威, 生駒創, 小武海大, 大見謝恒和, 白坂翠萌, 和田輝, 池田悠也, 松嶋達也, 松尾豊, 岩澤有祐, “基盤モデルを活用した自然言語による多様なタスク実現に向けたロボットシステムの統合,” 第41回日本ロボット学会学術講演会, 2023, 1K4-01.
[ 2 ] 藤井俊輔, 横地康太, 日下昂大, 上村知也, 佐野明人, “世界モデルベースの深層強化学習による脚が出るための広筋と腓腹筋の協調,” 第 41回日本ロボット学会学術講演会, 2023, 1K4-02.
[ 3 ] 平野慎之助, 小松拓実, 和田唯我, 神原元就, 畑中駿平, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明, “ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成,” 第41回日本ロボット学会学術講演会, 2023, 1K4-03.
[ 4 ] 堀和希, 鈴木彼方, 尾形哲也, “大規模言語モデルの修正提案に基づくロボット行動計画の明確化,” 第41回日本ロボット学会学術講演会, 2023, 1K4-04.
[ 5 ] 大日方慶樹, 金沢直晃, 河原塚健人, 矢野倉伊織, 金淳暁, 岡田慧,稲葉雅幸, “大規模言語モデルによるタスク実行管理器と RoboCuo JapanOpen @Home League GPSR タスクへの応用,” 第41回日本ロボット学会学術講演会, 2023, 1K4-05.
[ 6 ] 鷲山玄, 塚崎優生, 三浦太資, 渡邊翔也, 上村知也, 佐野明人, “砂利環境での触覚ビジョンセンサを用いた世界モデルに基づく連続跳躍,” 第41回日本ロボット学会学術講演会, 2023, 1K4-06.
[ 7 ] 塚本直人, 河原塚健人, 市倉愛子, 岡田慧, 稲葉雅幸, “大規模視覚-言語モデルとデータベースを用いたロボットの記憶蓄積とユーザーへの共有,” 第41回日本ロボット学会学術講演会, 2023, 1K4-07.
[ 8 ] 西村喬行, 松尾榛夏, 杉浦孔明, “視覚的基盤モデルを用いた Trimodal Cross-Attentional Transformer に基づく再配置対象の検出,” 第41回日本ロボット学会学術講演会, 2023, 1K4-08.

長谷川翔一 (Shoichi Hasegawa)

2022 年立命館大学大学院情報理工学研究科博士前期課程修了．修士 (工学)．現在同研究科博士後期課程在学中．計測自動制御学会学生会員，IEEE 学生会員．人工知能，サービスロボットなどを用いた空間の意味理解についての研究に従事．（日本ロボット学会学生会員）

2023/12/01学生編集委員会企画:第41回日本ロボット学会学術講演会レポート (オーガナイズドセッション：基盤モデルの実ロボット応用 (2/3))

1 はじめに

2 発表内容

2.1 基盤モデルを活用した自然言語による多様なタスク実現に向けたロボットシステムの統合 [1]

2.2 世界モデルベースの深層強化学習による脚が出るための広筋と腓腹筋の協調 [2]

2.3 ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成 [3]

2.4 大規模言語モデルの修正提案に基づくロボットの行動計画の明確化 [4]

2.5 大規模言語モデルによるタスク実行管理器生成法とRoboCup JapanOpen @Home League GPSRタスクへの応用 [5]

2.6 砂利環境での触覚ビジョンセンサを用いた世界モデルに基づく連続跳躍 [6]

2.7 大規模視覚-言語モデルとデータベースを用いたロボットの記憶蓄積とユーザーへの共有 [7]

2.8 視覚的基盤モデルを用いたTrimodal Cross-Attentional Transformerに基づく再配置対象の検出 [8]

3 おわりに

参考文献

長谷川翔一 (Shoichi Hasegawa)

関連記事

第39回日本ロボット学会学術講演会(RSJ2021)　特別企画のご案内

2022. 09. 28学生編集委員会企画:第39回日本ロボット学会学術講演会レポート（一般セッション:アクチュエータ）

2021. 05. 31第39回日本ロボット学会学術講演会「OS18：インテリジェントホームロボティクス」開催のお知らせ

1 はじめに

2 発表内容

2.1 基盤モデルを活用した自然言語による多様なタスク実現に向けたロボットシステムの統合 [1]

2.2 世界モデルベースの深層強化学習による脚が出るための広筋と腓腹筋の協調 [2]

2.3 ENCHANT: 大規模言語モデルを用いた仮説生成に基づくクロスモーダル説明文生成 [3]

2.4 大規模言語モデルの修正提案に基づくロボットの行動計画の明確化 [4]

2.5 大規模言語モデルによるタスク実行管理器生成法とRoboCup JapanOpen @Home League GPSRタスクへの応用 [5]

2.6 砂利環境での触覚ビジョンセンサを用いた世界モデルに基づく連続跳躍 [6]

2.7 大規模視覚-言語モデルとデータベースを用いたロボットの記憶蓄積とユーザーへの共有 [7]

2.8 視覚的基盤モデルを用いたTrimodal Cross-Attentional Transformerに基づく再配置対象の検出 [8]

3 おわりに

参考文献

長谷川 翔一 (Shoichi Hasegawa)

関連記事

第39回日本ロボット学会学術講演会(RSJ2021) 特別企画のご案内

2022. 09. 28学生編集委員会企画:第39回日本ロボット学会学術講演会レポート（一般セッション:アクチュエータ）

2021. 05. 31第39回日本ロボット学会学術講演会「OS18：インテリジェントホームロボティクス」開催のお知らせ

長谷川翔一 (Shoichi Hasegawa)

第39回日本ロボット学会学術講演会(RSJ2021)　特別企画のご案内