1 はじめに
2024年5月28日から31日にアクトシティ浜松で開催された人工知能学会全国大会 (第38回)のセッション参加レポートを行う. 本レポート内容は,世界モデルと知能 (1/5)である. 本セッションは4件の発表で構成される.
2 発表内容
2.1 自動運転システムのためのNeural Simulatorの構築および評価 [1]
本論文は,自動運転システム向けにNeRFs (Neural Radianse Fields) [2]を用いた高精度シミュレーション環境を構築・評価した (図1). 従来の3Dモデル作成のコストを削減し,LiDARやRGB画像を活用して,現実に近い視点合成や物体認識を実現する. 検証ではPSNR (Peak Signal to Noise Ratio) やSSIM (Structual SIMilarity) などの画質の評価指標で再構築精度を評価し,実世界での物体検出性能も確認した. リアルタイム処理やコスト面の課題も議論されており,実運用に向けた可能性が示されている.
筆者は,リアルタイム処理やデータ収集コストの課題について,具体的にどのような改善方法が考えられているかという点に関心を持った.
図1 提案したNeural Simulatorと学習評価の過程 [1]
2.2 マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション [3]
本研究は,屋内環境における対象物のセグメンテーションを行うOSMI-3D (Object Segmentation from Manipulation Instructions-3D) タスクに対し,カメラ視野外の物体の特徴量を扱い,対象物のセグメンテーションマスクを生成する手法を提案した. 画像,3D点群,指示文を入力とし,マルチモーダルな情報を組み合わせて対象物の特徴を抽出し,セグメンテーションマスクを生成することが特徴である. 従来の手法はカメラ視野内の物体に限られていたが,本研究では「Open-Vocabulary 3D Aggregator(OVA)」を導入し,視野外の物体情報も活用可能にする. また,参照表現の理解を支援する「Visual Context Interpreter(VCI)」や,物体の形状認識を補助する「Segment Based Attentional Enhancer(SBAE)」により,複雑な指示にも対応できる精度向上を実現する. 最適輸送を用いたポリゴンマッチングは,多角形の頂点の順序が異なっていても同じ形状を表す場合を考慮し,最適輸送を活用して予測された多角形と正解の多角形をマッチングする技術であり,正確なマスク生成が可能になる. 本研究は,先行研究 [?]を採用した. SHIMRIE-3Dデータセットで他のベースラインモデルと比較した結果,提案手法はmIoUやP@0.5といった指標で優れた成果を示した. 今後の課題として,セグメンテーションの精度向上には高い計算リソースが必要であることや,異なる環境への適応が挙げられる.
筆者は,提案手法の計算リソースの要求を軽減するために,どのような改善が考えられるかという点に関心を持った.
2.3 HyperNetworksの強化学習への適用 [4]
本研究は,強化学習における学習効率の向上を目的に「HyperNetworks [5]」を導入した手法を提案する. HyperNetworksは,学習対象であるメインネットワークを生成するため,効率的に良いネットワーク構造を探索しつつ,パラメータ数の削減も実現する. 本研究では,通常のネットワークと比較し,HyperNetworksがどれほど学習効率を高めるかを検証するため,学習率とバッチサイズを変えてGridWorldタスクで性能を評価した. 従来の強化学習はネットワーク設計やパラメータ調整に大きなリソースを必要としたが,HyperNetworksを使うことでネットワーク生成の柔軟性と知識の共有が可能となり,学習の効率化が図れる. 実験の結果,HyperNetworksはいくつかの設定で通常のネットワークを上回る成果を示した. ただし,最適な報酬を得るまでのエピソード数は条件により異なり,さらなる調整が必要とされる.
筆者は,HyperNetworksの計算リソースの要求をさらに最適化するには,どのような方法が考えられるかという点に関心を持った.
2.4 Learning Compositional Latents and Behaviors from Object-Centric Latent Imagination [6]
この研究は,環境のダイナミクスをモデル化するために,Transformer [7]を利用するモデルベース強化学習であるSTORM [8]上に構築された,物体中心表現を用いた世界モデル [9]を提案した. Transformerベースの世界モデルと組み合わせ,視覚入力のみで複雑なタスクを解決できるよう設計されており,特に未知の物体や場面にも対応可能な汎化性能を備える. 従来の世界モデルは長期的な依存関係の把握には優れていたが,異なる物体の相互作用や未知の状況への適応が課題であった. 本手法は物体中心の潜在表現を活用し,物体の追跡精度を向上させつつ,タスクにおける物体間の推論力を強化している. 実験ではOCRLベンチマークデータセットのObject Goal Task [10]を用い,従来のSTORMモデルと比較した結果,ロールアウト生成から提案モデルは未来のタイムステップを想像できることを示した. しかし,両モデルともどちらも高い成功率を達成できなかったため,さらなるモデルの改良が必要である.
筆者は,STORMモデルと比較して,提案モデルが優れている点と課題が残る点はどこかという点に関心を持った.
3 おわりに
本稿では,OS16: 世界モデルと知能 (1/5) の報告をした. 世界モデルを自動運転技術やセマンティックセグメンテーションなど発表ごとに異なる使い方がされており印象的であった. 筆者は生活支援ロボットのための空間の意味理解に関する研究をしており,参考になる部分もあり,本セッションの研究発表は興味深かった.
参考文献
[1] 蒲原惇乃輔, 坂本滉也, 大里章人, 冨江伸太朗, 片岡大哉, 河野慎, “自動運転システムのためのNeural Simulator の構築および評価,” 人工知能学会全国大会(第38 回), 2O6-OS-16a-01, 2024.
[2] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi,R. Ng, “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis,” Communications of the ACM, vol. 65, no. 1, pp. 99–106, 2021.
[3] 西村喬行, 九曜克之, 神原元就, 杉浦孔明, “マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション,” 人工知能学会全国大会(第38 回), 2O6-OS-16a-02, 2024.
[4] 九曜克之, 飯岡雄偉, 杉浦孔明, “PORTER: 最適輸送を用いたPolygon Matching に基づく参照表現セグメンテーション,” 第30 回言語処理学会, pp.7-16, 2024.
[5] 澤野千賀, “HyperNetworks の強化学習への適用,” 人工知能学会全国大会(第38 回), 2O6-OS-16a-03, 2024.
[6] V. K. Chauhan, J. Zhou, P. Lu, S. Molaei, D. A. Clifton, “A Brief Review of HyperNetworks in Deep Learning,” Artificial Intelligence Review, vol. 57, no. 9, pp. 1–29, 2024.
[7] A. Nakano, M. Suzuki, Y. Matsuo, “Learning Compositional Latents and Behaviors from Object-Centric Latent Imagination,” 人工知能学会全国大会(第38 回), 2O6-OS-16a-04, 2024.
[8] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin, “Attention Is All You Need,” arXiv preprint arXiv:1706.03762, 2023.
[9] W. Zhang, G. Wang, J. Sun, Y. Yuan, G. Huang, “STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning,” Advances in Neural Information Processing Systems (NeurIPS), vol. 36, 2024.
[10] R. Veerapaneni, J. D. Co-Reyes, M. Chang, M. Janner, C. Finn, J. Wu, J. Tenenbaum, S. Levine, “Entity Abstraction in Visual Model-based Reinforcement Learning,” The Conference on Robot Learning (CoRL), pp.1439–1456, 2020.
[11] J. Yoon, Y.-F. Wu, H. Bae, S. Ahn, “An Investigation into Pre-Training Object-Centric Representations for Reinforcement Learning,” arXiv preprint arXiv:2302.04419, 2023.
長谷川翔一 (Shoichi Hasegawa)
2022年立命館大学大学院情報理工学研究科情報理工学専攻博士前期課程修了.現在同研究科博士後期課程在学中.立命館RARA 学生フェロー.Best Paper Award (SII2023・SMC2024・IRC2024),計測自動制御学会関西支部奨励賞,日本ロボット学会優秀研究・技術賞など受賞.計測自動制御学会, 人工知能学会, IEEE の各学生会員.サービスロボットのための空間の意味理解や行動計画に関する研究に従事. (日本ロボット学会学生会員)