SEARCH
MENU

学生編集委員会企画:人工知能学会全国大会 (第38回)レポート (オーガナイズドセッション:統合AIと人との共生 (1/2))


1 はじめに

2024年5月28日から31日にアクトシティ浜松で開催された人工知能学会全国大会 (第38回)のセッション参加レポートを行う. 本レポート内容は,統合AIと人との共生 (1/2)である. 本セッションは5件の発表で構成される.


2 発表内容

2.1 げっ歯類のインタラクションの機能要件の提案: 機能実現グラフを通じて脳器官との接地の試み [1]

この研究は,げっ歯類の神経構造を参考にした感情的な相互作用モデルの構築を通じて,AIの感情理解の解釈性と信頼性を高めることを目的としている. 従来のAIシステムでは感情的な機能が暗黙的であり,解釈が難しいという課題があった. 円滑なコミュニケーションを行う対話インタラクションを実現するためには,自他の感情のダイナミクスを扱い,人間同士の会話を行う能力を持つことが重要である. 感情のダイナミクスを捉えるためには,感情推定や感情生成などの認知的機能,神経回路における人の脳神経の活動との対応付け (接地) がなされた解釈可能性を持つアーキテクチャが必要である. 本研究では,人間同士の感情のダイナミクスに基づくアーキテクチャを構築するために,げっ歯類の情感に関する機能的要件を整理し,機能実現グラフ(Function Realization Graph: FRG)(図 1)を提案し,これを通じて感情的な反応を可視化し,明確に理解できる形にしている. FRGは,げっ歯類の神経反応を模倣した有向非巡回グラフとして,恐怖条件付けや共感といった感情反応の再現に利用されており,生物学的な根拠に基づいた感情的な機能をAIに実装するための有用なフレームワークである.
筆者は,FRGを他の動物モデルに適用することは可能かという点に関心を持った.

 


図1 げっ歯類レベルの機能実現グラフ [1]


2.2 大規模言語モデルに基づくホメオスタシス型メタプランニング手法の提案 [2]

エージェントが環境の変化に応じて自律的に目的を選択するための「ホメオスタシス型メタプランニング手法」を提案した. 大規模言語モデル(LLM)を活用し,エージェントが環境と自身の欲求バランスを保ちながら動的に目標を選択できるよう設計されている. 従来のプランニング手法では,環境変化に対応する適応性やリアルタイム性が不足していたが,本研究はLLMを利用して欲求と環境情報を分析し,エージェントが自律的に欲求に基づく行動を選択する点で新規性がある. また,マズローの欲求階層を参照した欲求優先度設定によって,自律性を実現する. 実験では,既知と未知の環境においてエージェントが適切な目的選択を行えるかを検証した. 既知の環境では予測通りの反応が示され,一部の未知の環境でも欲求変化と目的選択ができることが確認された.
筆者は,エージェントの欲求変化と目標選択の正確性を高めるために,LLMのトレーニングにおいて特に考慮すべきことは何かという点に関心を持った.


2.3 LLMを用いたアフォーダンス獲得可能な知識グラフの構築手法の提案 [3]

この研究は,大規模言語モデル(LLM)を使って,エージェントが環境や物体に応じた行動(アフォーダンス)を自律的に獲得できる知識グラフ構築手法を提案した. アフォーダンスは人の常識の暗黙的なものであり,アフォーダンスを利用するには,常識を収集し,取り出す必要がある. 近年ではLLMの発展に伴い,LLMが持つ常識的な知識から推論ができるようになっている. 本研究では,アフォーダンス獲得のためにLLMを利用する. 具体的には,LLMを用いた知識ネットワーク構築を踏襲しながら,道具を自動選択するなどのアフォーダンス獲得可能な知識ネットワークを構築する. 手法の特徴は,LLMから得た知識を「Object」「Attribute」「Action」「Origin」に整理し,共起頻度でエッジの重みを付けたネットワークを形成する点である. これにより,エージェントが特定の環境や対象に基づき適切な行動を想起できるようになる. 実験では,「apple」と「knife」を認識した際に「slice apple」が,「apple at store」では「buy apple」が想起されることを確認し,環境に応じた行動選択の有効性が示された.
筆者は,道具の自動選択は,他の物体といった曖昧な状況でも適切に機能するかという点に関心を持った.


2.4 マルチエージェントプランニングのためのLLMに基づく階層的な行動系列の自動抽出 [4]

大規模言語モデル(LLM)を用いて,エージェントが状況に応じた行動計画を効率的に立てられるよう,階層的な行動系列を自動抽出し,マルチエージェントの行動ネットワークを構築する手法を提案した. 従来のマルチエージェントプランニングのAgent Network Architecture (ANA) はロボットの単位行動に相当するエージェントを持つ機構になっており,エージェント間の活性伝搬で行動列を決定する [5]. しかしながら手作業での設計が必要であり,効率や拡張性に限界があった. 本研究ではLLMを活用することで,エージェントが自律的に行動系列を構築できる設計自動化を実現している. 提案手法の要は,タスクを抽象的なものから末端行動まで再帰的に分解し,その結果に基づいてエージェントを生成する点である. さらに,エージェントの要素(目的語,場所,道具など)を変数化してネットワークを効率的に構築することで,環境や状況に応じた柔軟な行動選択が可能になる. 実験では,特定の動詞や状況からタスクを生成・分解し,末端行動からエージェントを自動生成して行動ネットワークを構築した. たとえば,「clean the dishes」というタスクが「approach sink」や「pick up dish」といった末端行動に分解される様子を確認し,適切な階層分解が可能であることを示した.
筆者は,人間が作成したプランニングとこの手法によるプランニングとの精度や効率の違いはどの程度かという点に関心を持った.


2.5 道徳に基づく動作を行う自律エージェントの行動選択とメカニズムの提案 [6]

この研究は,自律エージェントが「マナー」と「モラル」に基づいて道徳的な行動を選択できるようにする手法を提案した. エージェントが周囲の環境に応じて道徳的判断を行い,社会規範に適応した行動をとることを目指している. 従来のArtificial Moral Agent(AMA)における強化学習を活用した方法 [7]は,質の良いデータを獲得することが困難なこと,説明可能性の低さなどの問題があった. 本手法の特徴は,エージェントの「manner moral level」を導入し,これが許容値を超えると行動が抑制される仕組みである. 実験は2種類行い,実験1では,エージェントが優先席のある状況で周囲に配慮して適切な席を選べるかを検証し,提案手法によりエージェントが状況に応じた適切な行動をとることが確認された. また実験2はレストランでの食事を想定し,非道的な行動を抑制,周囲の環境によって非道徳的でない行動を周囲の環境を踏まえて抑制しないことが可能かを検証した. 実験2の結果では,周囲にあまり人がいない場合は1名のAgentが4人席にや1人席に座り食事をするという行動,犬食いをするという食事マナーに反する行動を取らない選択をした. 周囲の環境を考慮してこのような結果になったと推察される.
筆者は,実験結果で得られた知見は,他のエージェント設計にどのように活かせるかという点に関心を持った.


3 おわりに

本稿では,OS20: 統合AIと人との共生 (1/2)の報告をした. 多くの研究で,大規模言語モデルを活用したアプローチがあり,技術内容が興味深かった. 筆者は,生活支援ロボットのための空間の意味理解・行動計画に関する研究をしており,本セッションの研究発表を参考にし,研究を進めていきたい.


参考文献

[1] 太田博三, 田和辻可昌, 宮本竜也, 大森隆司, 芦原佑太, 荒川直哉, 山川宏, “げっ歯類のインタラクションの機能要件の提案: 機能実現グラフを通じて脳器官との接地の試み,” 人工知能学会全国大会(第38 回), 2K5-OS-20a-01, 2024.

[2] 小林伶央, 安部玲央, 伊藤亮史, 有井知真, 栗原聡, “大規模言語モデルに基づくホメオスタシス型メタプランニング手法の提案,” 人工知能学会全国大会(第38 回), 2K5-OS-20a-02, 2024.

[3] 有井知真, 安部玲央, 小林伶央, 伊藤亮史, 笹田和希, 栗原聡, “LLMを用いたアフォーダンス獲得可能な知識グラフの構築手法の提案,” 人工知能学会全国大会(第38 回), 2K5-OS-20a-03, 2024.

[4] 伊藤亮史, 安部玲央, 小林伶央, 有井知真, 栗原聡, “マルチエージェントプランニングのためのLLM に基づく階層的な行動系列の自動抽出,” 人工知能学会全国大会(第38 回), 2K5-OS-20a-04, 2024.

[5] P. Maes, “The Agent Network Architecture (ANA),” ACM SIGART Bulletin, vol. 2, no. 4, pp. 115–120, 1991.

[6] 笹田和希, 小林伶央, 安部玲央, 有井知真, 伊藤亮史, 栗原聡, “道徳に基づく動作を行う自律エージェントの行動選択とメカニズムの提案,”人工知能学会全国大会(第38 回), 2K5-OS-20a-05, 2024.

[7] R. Noothigattu, D. Bouneffouf, N. Mattei, R. Chandra, P. Madan, K. R. Varshney, M. Campbell, M. Singh, F. Rossi, “Teaching AI Agents Ethical Values using Reinforcement Learning and Policy Orchestration,” IBM Journal of Research and Development, vol. 63, no. 4/5, pp. 1–9, 2019.


長谷川翔一 (Shoichi Hasegawa)

2022年立命館大学大学院情報理工学研究科情報理工学専攻博士前期課程修了.現在同研究科博士後期課程在学中.立命館RARA 学生フェロー.Best Paper Award (SII2023・SMC2024・IRC2024),計測自動制御学会関西支部奨励賞,日本ロボット学会優秀研究・技術賞など受賞.計測自動制御学会, 人工知能学会, IEEE の各学生会員.サービスロボットのための空間の意味理解や行動計画に関する研究に従事. (日本ロボット学会学生会員)