1 はじめに
2024年9月3日から6日に大阪工業大学梅田キャンパスで開催された第42回日本ロボット学会学術講演会のセッション参加レポートを行う. 本内容は,基盤モデルの実ロボット応用 (3/4)である. 本セッションは7件の発表で構成される.
2 発表内容
2.1 ロボット動作モデルとLLMの統合学習における感覚運動注意–言語の予測誤差に基づく予測修正 [1]
本研究は,大規模言語モデル(LLM)とロボットの動作モデルを統合し,感覚運動と自然言語の予測誤差に基づいてモデルを最適化する手法を提案した. 従来の研究は,LLMと動作モデルを個別に扱うことが多かったのに対し,本研究では共有の潜在変数を用いて両者を統合した. 提案手法には,Spatial Attention Transformer RNN(SATrRNN)を動作モデルに,RWKV [2]をLLMに採用し,これらを共有潜在変数で結合することで,より精度の高い動作生成を実現した.
筆者は,不確実性予測の導入でどのように精度が向上する可能性があるかという点に関心を持った.
2.2 あいまいな生活支援ロボット動作記述のVLMとARデバイスを用いた提示と指示による展開 [3]
本研究は,生活支援ロボットが曖昧なタスク指示に柔軟に対応できるシステムを提案した (図1). 視覚言語モデル(VLM)とARデバイスを活用し,ロボットがタスク現場で必要な情報を収集し,ユーザに選択肢を提示する仕組みを提供する. ユーザはARデバイスを通じて物体や位置情報を視覚的に確認・選択し,ロボットはその情報に基づいて動作を継続する. 従来の研究では,ロボットがタスク中に動的に情報収集を行うことが困難だったが,本システムは曖昧な指示をテンプレート化し,ユーザが指示を出せる点が特徴である. 飲食物の購入や冷蔵庫からの飲み物取得などのシナリオで検証を行い,ユーザにとって使いやすく,ロボットの柔軟性を向上させることが確認された.
筆者は,ユーザーにとって使いやすいインターフェースをどのように評価するかに関心を持った.
図1: 言語のみで指示を行うことの問題(上段) と提案システムのタスク実行前・実行中の動作(下段).
2.3 自動評価尺度を用いた強化学習およびマルチモーダル基盤モデルに基づく物体操作指示文生成 [4]
本研究では,対象物体と配置目標を適切に含む物体操作指示文を生成するモデルを提案した. 視覚と言語の特徴を統合するマルチモーダルモデルを活用し,Dual Image Caption Generatorにより複数画像からの指示文生成を可能にした. また,評価尺度Polos [5]やHuman Centric Calibration Phase(HCCP)を導入し,人間に近い品質の指示文生成を実現する. 実験では,SPICEやCIDErといった評価指標で従来手法を上回る成果を示し,Polosスコアでは特に高い精度を達成した.
筆者は,今後,より多様なタスクや環境で応用するために,どのような改善が必要かという点に関心を持った.
2.4 受動的身体性を重視した2足跳躍ロボットのSim2Real [6]
本研究は,人間の筋肉や腱を模倣した受動的要素を備えた2足跳躍ロボットのSim2Real手法を提案した. MuJoCoを用いてロボットの物理的特徴を忠実に再現したシミュレーション環境を構築し,連続跳躍動作が実機でも再現できるかを検証した. 実験では,シミュレーション内での連続跳躍が成功し,実機でも短時間ながら跳躍動作が実現したが,安定性には課題が残った. この結果を踏まえ,Sim2Realの実現に向けた改善点として,入力画像にノイズを加えることでロバスト性を高めることや,床反力を基にしたモデルパラメータの最適化が挙げられる.
筆者は,今後の改善点として挙げられた「ノイズの導入」や「床反力の調整」はどのように実現するかという点に関心を持った.
2.5 エージェント視点の時空間シーングラフとLLMを用いた物体探索手法の提案 [7]
本研究は,家庭内で変化する物体の最新位置を予測するため,エージェントの観測履歴を蓄積したシーングラフと大規模言語モデル(LLM)を活用した物体探索手法を提案した. 居住者がロボットに自然言語で物体の位置を尋ねた際に,その質問をクエリに変換してシーングラフから位置候補を抽出し,最新位置を予測する方法である. 従来の手法は物体のIDが指定された状態で実験していたが,本研究では自然言語指示や動的な物体位置にも対応する. エージェントの観測履歴をScene Graph Memory(SGM)に蓄積し,Text-to-Query方式でLLMが質問をクエリに変換,Node Edge Predictor(NEP)で位置の存在確率を評価することで,高精度な物体探索を実現する. 実験では,ベースラインを超える探索精度が確認され,今後さらに精度や応答速度の向上が期待される.
筆者は,実際の生活空間で未知の物体や新しい状況が発生した場合,この手法はどのように適応するかという点に関心を持った.
2.6 生活支援タスクにおける大規模言語モデルによる行動生成システムの開発 [8]
本研究は,生活支援ロボットが大規模言語モデル(LLM)を活用して自律的に行動計画を立て,その計画に基づいたプログラムコードを自動生成するシステムを開発した. ユーザからタスク指示と環境情報を受け取り,LLMで行動計画を生成し,Pythonコードとして具体的な動作に落とし込む3ステップのシステム構成を採用した. 従来は固定ルールに基づいた行動しかできなかったが,本システムではLLMがタスクの内容を理解し,動的にコードを生成するため,環境の変化に柔軟に対応できる点が特徴である. シミュレーション実験では,ロボットがジュース缶を指定の場所に置くタスクを実行したが,コード生成に一貫性がなくエラーが多発し,タスクを完遂できなかった. 今後は,モジュールや変数の指定を明示するプロンプトの補強や,視覚情報を取り入れることでコード生成の精度向上を目指す.
筆者は,実環境での適用を目指すために,さらに必要な改善点は何かという点に関心を持った.
2.7 LLMによる対話型タスク計画を用いた物体検出の予測修正 [9]
本研究は,大規模言語モデル(LLM)を活用して,ロボットの物体検出における予測精度を対話的に修正する手法を提案した. 曖昧な指示を受けた際に,LLMがユーザーとの対話を通じてタスクコンテキストを明確にし,その情報を基に検出対象を特定する. この対話による情報収集は検出モデルに反映され,誤検出の削減や検出精度の向上が期待される. 従来のLLM活用研究ではタスク計画の修正が中心だったが,本手法は物体検出そのものに対話を組み込む点で新規性がある. 具体的には,対話型タスク計画で曖昧な指示を明確化し,対話履歴に基づいた検出クエリの修正で信頼度の高い検出結果を採用する2段階のプロセスを構築した. 3つのシナリオで実験を行い,対話を通じて「飲み物」から「牛乳」など具体的な対象物に絞り込むことで,物体検出精度が向上した.
筆者は,「模倣学習の活用」は,具体的にどのようにシステムに組み込む予定かという点に関心を持った.
3 おわりに
本稿では,OS3: 基盤モデルの実ロボット応用 (3/4) の報告をした. ロボットの行動計画,物体のセグメンテーションなど様々な基盤モデルの活用方法が見られた. 筆者は基盤モデルを活用したロボットの行動計画に関する研究をしており,このセッションの発表はとても興味深かった.
参考文献
[1] 鈴木彼方尾形哲也, “ロボット動作モデルとLLM の統合学習における感覚運動注意–言語の予測誤差に基づく予測修正,” 第42回日本ロボット学会学術講演会, 3D3-01, 2024.
[2] B. Peng, E. Alcaide, Q. Anthony, et al., “RWKV: ReinventingRNNs for the Transformer Era,” Findings of the Association for Computational Linguistics: Empirical Methods in Natural Language Processing (EMNLP), pp.14048–14077, 2023.
[3] 大日方慶樹, 賈浩宇, 河原塚健人, 金沢直晃, 岡田慧, “あいまいな生活支援ロボット動作記述のVLM とAR デバイスを用いた提示と指示による展開,” 第42回日本ロボット学会学術講演会, 3D3-02, 2024.
[4] 勝又圭, 神原元就, 杉浦孔明, “自動評価尺度を用いた強化学習およびマルチモーダル基盤モデルに基づく物体操作指示文生成,” 第42 回日本ロボット学会学術講演会, 3D3-03, 2024.
[5] Y. Wada, K. Kaneda, D. Saito, K. Sugiura, “Polos: Multimodal Metric Learning from Human Feedback for Image Captioning,” IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13559–13568, 2024.
[6] 小島寛以, 家田英和, 横地康太, 鷲山玄, 川口達也, 上村知也, 佐野明人, “受動的身体性を重視した2 足跳躍ロボットのSim2Real,” 第42回日本ロボット学会学術講演会, 3D3-04, 2024.
[7] 太田葵, 江上周作, 高間康史, 福田賢一郎, “エージェント視点の時空間シーングラフとLLM を用いた物体探索手法の提案,” 第42回日本ロボット学会学術講演会, 3D3-05, 2024.
[8] 渡邉拓水出村公成, “生活支援タスクにおける大規模言語モデルによる行動生成システムの開発,” 第42回日本ロボット学会学術講演会,3D3-06, 2024.
[9] 牛坂茜, 堀和希, 鈴木彼方, 尾形哲也, “LLM による対話型タスク計画を用いた物体検出の予測修正,” 第42回日本ロボット学会学術講演会, 3D3-07, 2024.
長谷川 翔一(Shoichi Hasegawa)
2022年立命館大学大学院情報理工学研究科情報理工学専攻博士前期課程修了.現在同研究科博士後期課程在学中.2024年立命館RARA学生フェロー.Best Paper Award (SII2023・SMC2024),計測自動制御学会関西支部奨励賞,日本ロボット学会優秀研究・技術賞など受賞.計測自動制御学会, 人工知能学会, IEEEの各学生会員.サービスロボットのための空間の意味理解や行動計画に関する研究に従事.