1 はじめに
2023年6月6日から9日に熊本城ホールで開催された人工知能学会全国大会 (第37回)のセッション参加レポートを行う. 本レポート内容は,日常生活知識とAI (1/4) (図 1)である. 本セッションは5件の発表で構成される.
2 発表内容
2.1 Learning to Rank Physical Objects: ランキング学習による物理世界検索エンジン [1]
本発表では,human-in-the-loop設定において,家庭環境内でユーザによるオープンボキャブラリの指示文から対象物体を特定するタスク(Learning-to-Rank Physical Objects (LTRPO)タスク)を定義し,対象物体を特定するアプローチとしてMultiRankItを提案した. LTRPOタスクは,参照表現を含む指示に基づいて,ロボットが室内で撮影した画像の中から特定の物体を発見するタスクである. 例えば,"Go to the bathroom with a picture of a wagon. Bring me the towel under the picture directly across from the sink."というような指示が与えられたとする. このタスクでは,ロボットが撮影した画像に基づき,対象となる物体の候補をランク付けし,正確な物体を特定する必要がある (図 2). しかしながら,対象物体を正確に特定することは容易ではない. そこで,MultiRankItはCrossmodal Noun Phrase Encoder (参照表現を含む句と対象物体領域との関係をモデル化)と,Crossmodal Regional Feature Encoder (対象物体と複数の周辺画像との関係をモデル化),Target Phrase Extractor (複雑な指示文から対象物体を抽出)を用いて,対象物体を特定した.
筆者は,MultiRankItは異なる言語や文化的背景からの指示に対してどの程度効果的かという点に関心を持った.
図 1: OS24:日常生活知識とAI (1/4)における会場の雰囲気.
図 2: Human-in-the-loop設定において,家庭環境内でユーザによるオープンボキャブラリの指示文から対象物体を特定するタスク(Learning-to-Rank Physical Objects (LTRPO)タスク).
2.2 大規模基盤モデル利用による料理レシピ記述からの食材状態変化を考慮した調理認識計画行動ロボットシステム [2]
本発表では,CLIP [2]やGPT-3 [3]などの基盤モデルを利用し,自然言語で記述されたレシピに基づき,ロボットが食材の状態変化を考慮した調理タスクを行った (図 3). GPT-3のFew-shotにより,自然言語で記述された料理レシピをロボットが解釈可能な形で表現された調理関数に変換する. その後,ロボットはCLIPを用いて食材の状態変化を画像認識しながら,適切な調理手順を実行する.
筆者は,ハンバーグなど中身の焼き加減を考慮する必要がある調理は対応できるかという点に関心を持った.
図 3: 大規模言語モデルにより自然言語で記述されたレシピを関数表現に変換し,画像認識に基づく食材の状態認識により適切なタイミングで調理操作が実行される.
2.3 知識グラフとGPTを用いた家庭内の危険行動の検知と説明 [5]
本発表では,家庭環境を模した仮想空間のシミュレーション情報を知識グラフで表現したデータセットを用いて,家庭における高齢者の危険行動に対するリスク説明と解決策を提示するフレームワークを提案した. はじめに,危険となりうる高齢者の行動の推論ルールをSPARQLクエリで定義し,条件を満たす行動を検出する. また,検出された行動に対して知識グラフの埋め込み表現を適用し,他の危険行動に該当するエンティティのベクトルとの間でコサイン類似度を計算することで,知識グラフの推論では得られなかった更なる危険行動の検出を試みる. 最後に,危険行動の検出結果からテンプレートを用いて,GPT-3 [3]やChatGPT に危険行動に対するリスク説明と解決策を出力させる.
筆者は,高齢者の行動パターンは時間とともに変化すると考えられるが,提案システムはその変化に適応できるかという点に関心を持った.
2.4 日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識 [6]
本発表では,大規模視覚言語モデルにおけるVisual Question Answering (VQA)を応用し,環境の状態認識 (e.g., 扉の開閉認識)を行った. ロボットが撮影した画像に対して,"Is -?"や"Do -?"の質問により大規模視覚言語モデルは環境の状態認識をする. 質問文は質問形式,冠詞,状態表現,言葉遣いの4要素を組み合わせることで生成した. また遺伝的アルゴリズムを使用することで適切な質問の組み合わせを探索し,高い性能を持つ状態認識を構築した.
筆者は,実験では複数の生活支援タスクを扱っていたが,このアプローチはどのようなタスクに最も適しているかという点に関心を持った.
2.5 Nearest Neighbor Future Captioning: 物体配置タスクにおける衝突リスクに関する説明文生成 [7]
本発表では,生活支援ロボットの物体配置における衝突リスクの関する説明文を生成するために,Nearest Neighbor Language Model (NNLM)をfuture captioningに導入したNearest Neighbor Future Captioning Model (NNFCM)を提案した. Future Captioningは,ロボットの動作前の画像から将来の状況の説明文を生成するタスクである. そこで,NNFCMはCollision Attention Module (衝突予測における配置領域の注目箇所を抽出),Cross Attentional Image Encoder (対象物体と配置領域の関係をモデル化),Cross Attentional Multimodal Decoder (画像と言語のマルチモーダル特徴量から次のトークンの予測確率を出力),Nearest Neighbor Captioning Module (k近傍法を用いてデコーダの出力を補強)を用いて,衝突の可能性のある領域を反映した説明文を生成した.
筆者は,提案モデルは衝突リスクを予測するだけでなく,衝突を回避するための具体的な行動指針も提供可能かという点に関心を持った.
3 おわりに
本稿では,OS24: 日常生活知識とAI (1/4)の報告をした. 多くの研究で特徴量抽出や環境の状態認識をするために,基盤モデルを活用している点が印象的であった. 筆者は,生活支援ロボットのための空間の意味理解に関する研究をしており,本セッションの研究発表は興味深かった.
参考文献
[1] 兼田寛大, 神原元就, 杉浦孔明, "Learning to Rank Physical Objects:ランキング学習による物理世界検索エンジン", 人工知能学会全国大会(第37回), 2023, 3G1OS24a01.
[2] 金沢直晃, 河原塚健人, 大日方慶樹, 岡田慧, 稲葉雅幸, "大規模基盤モデル利用による料理レシピ記述からの食材状態変化を考慮した調理認識計画行動ロボットシステム", 人工知能学会全国大会(第37回),2023, 3G1OS24a02.
[3] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al., "Learning Transferable Visual Models from Natural Language Supervision", International Conference on Machine Learning (ICML), 2021, pp. 8748–8763.
[4] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al., "Language Models are Few-Shot Learners", Advances in Neural Information Processing Systems (NeurIPS), vol. 33, pp. 1877–1901, 2020.
[5] 浅野歴, 濱道光希, 牟耕, 森俊人, 矢野翔平, 森田武史, "知識グラフとGPT を用いた家庭内の危険行動の検知と説明", 人工知能学会全国大会(第37回), 2023, 3G1OS24a03.
[6] 河原塚健人, 大日方慶樹, 金沢直晃, 岡田慧, 稲葉雅幸, "日常生活支援ロボットに向けた大規模視覚-言語モデルと進化的計算に基づく状態認識", 人工知能学会全国大会(第37回), 2023, 3G1OS24a04.
[7] 小松拓実, 神原元就, 畑中駿平, 松尾榛夏, 平川翼, 山下隆義, 藤吉弘亘, 杉浦孔明, "Nearest Neighbor Future Captioning: 物体配置タスクにおける衝突リスクに関する説明文生成", 人工知能学会全国大会(第37回), 2023, 3G1OS24a05.
長谷川 翔一 (Shoichi Hasegawa)
2022年立命館大学大学院情報理工学研究科情報理工学専攻博士前期課程修了.現在同研究科博士後期課程在学中.2024年立命館RARA学生フェロー.Best Paper Award (SII2023・SMC2024・IRC2024),計測自動制御学会関西支部奨励賞,日本ロボット学会優秀研究・技術賞など受賞.計測自動制御学会,人工知能学会,IEEEの各学生会員.人工知能,サービスロボットなどを用いた空間の意味理解や行動計画の研究に従事.