SEARCH
MENU

第37回人工知能学会全国大会レポート(一般セッション:ロボットと実世界)


1 はじめに

本記事は2023年6月6日から9日まで開催された人工知能学会全国大会(第37回)のセッションに参加した様子を報告する. 近年,深層学習の発展とともに機械学習やAIへの社会的注目が高まっている.その中で,ロボティクス分野への応用やロボットによる経験データの収集など,ロボットとの融和も期待されている. 本記事は,セッション「ロボットと実世界」の10の発表の内容をまとめたものである.


2 本文

一件目は千葉大学の齊藤さんらによる発表『人流が内包する複数の意図識別法』である[1].人流データは人がいつ,どこに,何人いるかというマクロな行動解析から混雑状況の把握や需要予測に利用されている.本研究は,ミクロな行動解析によって人流が内包する複数意図の分析に活用することを目標としている.そこで着目されたのが,個人個人の意図を数値化したものを報酬として強化学習(RL)を適用する手法である.しかし,人の行動意思を数値化することは困難である.本研究では,実際の行動軌跡から報酬関数を推定する逆強化学習(本研究ではMaxEntIRL)に,クラスタリングと報酬推定を繰り返し行うEMアルゴリズムを導入したEM-MaxEntIRLが提案された.これにより各クラス,すなわち各意思に対する定量的な推定を可能としている.

二件目は千葉大学の境さんらによる発表『動的環境下での頑健な制御を実現する強化学習法』である[2].強化学習を用いたロボットの制御は,モデルフリーの学習で複雑な環境でも制御則を獲得できる利点がある.しかし,実環境での学習はコスト・時間・安全性の観点で困難なため,シミュレーション環境を用いるのが一般的だが,リアリティギャップなどにより最適な制御が行えないことが問題である.本研究では,質量や摩擦などの変数が異なる様々なシミュレーション環境を作成するドメインランダマイゼーションと強化学習(本研究では実際にロボットの制御に用いられているDDPG)を組み合わせる手法が提案された.これによって,環境の変化にも対応した安定な動作を可能としている.

三件目は電気通信大学の中野さんらによる発表『CycleGANを用いた実ロボットによる動作の模倣』である[3].ロボットアームが多様な環境に適応するために,人の動作をもとに学習する模倣学習の研究がある.従来は人とロボットの画像が一意に対応するペアの画像データで学習され,精度の高い学習ができた反面,データ収集に時間がかかる.本研究では,2種類のドメインの双方向変換が可能なモデルを敵対的に学習させるCycleGANと画像認識に有効な学習モデルCNNを組み合わせることが提案された.CycleGANによって人の腕の画像から同じ姿勢のロボットアームの画像が生成でき,CNNによりロボットの関節角度が生成できる.これによって人の腕の動作を撮影することで,それを再現するようなロボットアームの動作の実現を可能としている.左右往復運動や上下往復運動,バナナのカッティング動作を対象として模倣動作生成の実験を行い,提案手法により人の腕の動作を大まかに模倣できることが確認されていた.

四件目はパナソニックホールディングス株式会社と立命館大学のグループの岡田さんらによる発表『インピーダンス制御を意識した教示分節化と事前知識を利用した多目的ベイズ最適化による剛性パラメータの学習』である[4].従来の模倣学習は人の動作の再現の際,不測の接触により周囲環境へダメージを与えてしまうリスクがある.これに対し,ロボットを仮想的なバネ系に従わせるインピーダンス制御の導入が有効である.しかし,設定する剛性パラメータは,安全性と目標軌道の再現性に関してトレードオフなため,設定が困難である.本研究では,2つの手法の提案によりこの課題に取り組んでいる.1つは教示がインピーダンス制御の運動方程式の複数の組合せによって支配されていると仮定し,教示の分節化,それぞれの分節のダンパ係数や剛性係数を同定する手法である.この手法はIC-SLDと呼ばれ,これにより直感的な分節化を実現できる.タスク性能の指標と安全性の指標を目的関数としてそれぞれ定め,そのパレート解の範囲を最大化する多目的最適化を適用することで,剛性パラメータを定めることができる.ここで,事前知識を確率分布の形式で獲得関数に導入するπ-BOの応用を提案している.これにより,IC-SLDの推定結果を最適化に組み込むことができる.シミュレーション実験および実ロボットを用いた実験を通して,少ない教示回数で高いパフォーマンスを実現できることが示された.

五件目は東京大学の高城さんらによる発表『大規模言語モデルを補助に用いた言語指示ロボット学習のタスク汎用性の分析』である[5].ロボットの制御に機械学習を応用する際,その効率化が課題となっている.本研究は,言語情報を補助情報として学習に活用することを目標としている.従来のロボットの機械学習における大規模言語モデル(LLM)の活用は,単純な補助情報の生成に留まり,制御方策に直接補助するものはない.本研究では,複数のタスクから構成されるタスクを対象に,タスク文と初期状態からChatGPTによりタスクを達成する手順のテキストを生成し,説明文と画像から模倣学習するHiveFormerと組み合わせることを提案している.これにより,段階的な操作が必要なタスクでも制御モデルの学習効率を高めることが可能となる.シミュレーション環境におけるロボットの学習により,シングルタスクでは提案手法は従来手法より少ない学習回数でより高い確率率でタスクを達成でき,一部のマルチタスクでも提案手法は従来手法より高い確率でタスクを達成できることが確認された.

六件目は創価大学のKeithさんらによる発表『トレイ上の複数物体のバランス維持のための深層強化学習を用いたロボットアーム制御の一手法』である[6].本研究は,ロボットハンドにトレイを把持させることで,運搬効率を向上させることを目標としている.ここで,ロボットの移動時に生じる慣性によりトレイ上の物体の落下するリスクが課題である.本研究では,強化学習の一種であるSACを用い,慣性の変化に応じてトレイ上の全てのバランスを崩さないためのアームの制御手法を提案している.観測空間をトレイ上の物体の状態,ロボットアームの状態や入力トルク,移動機構部の状態とし,行動空間をロボットアームの位置,報酬関数を各物体の初期位置からのズレと速さで定めることで,トレイ上の物体のバランスを保ちながら走行するように学習できる.シミュレーション環境における5関節ロボットで,トレイ上の球体や直方体などの複数の物体を一定速度で運搬する動作を対象に実験を行い,提案手法の有効性が示された.

七件目は太陽株式会社と日本海事協会のグループの,横堀さんらによる発表『帆走型風力発電船の帆走技術』である[7].日本海事協会では洋上風力発電の実現のため,帆走型風力発電船が提案されている.本研究では,自動制御のための帆走機構を提案している.まず,小型化と高揚力の獲得のため,航空機に見られるような翼状の帆を作成し,フィンスタビライザーの導入により転倒を防止する機構となっている.風向計やGPS,電子コンパスなどの情報を入力として,サーボモータの制御を行っている.貯水池での実験から,装置の機能検証を行い,蛇行してしまうが帆走が可能であることが確認された.今後は人工知能技術の応用や気象情報の取得により,蛇行しない安定した制御の実現を展望している.

八件目は東京工芸大学の木俣さんらによる発表『Pepperのテレイグジスタンスシステムと情動システムの開発』である[8].アフターコロナにおいて,遠隔地の物があたかも近くにあるように感じ,リアルタイムで操作する環境を構築する技術(テレイグジスタンス)が重要視されている.従来,Pepperを用いたテレイグジスタンスが行われたが,通信の遅延で瞬時に反応できない問題がある.これに対し,本研究では,ロボットに感情を持たせる情動システムの導入を検討している.ここで,画像に対する感情価(情動の質的指標),覚醒度(情動の揺さぶられ方),支配性(自身の制御感や影響力)のデータセットIAPSと,YOLOv4を用いた物体検出やキャプション生成アルゴリズムであるCATRを組み合わせることを提案している.物体検出とCATRで生成の精度を比較した際,CATRの方が風景画についての説明ができていることが確認された.

九件目は愛知県立大学,中央大学,鈴鹿医療科学大学のグループの,大川らによる発表『困惑推定手法に基づき学習支援を提供する教育支援ロボットが大学生に与える学習効果』である[9].現在,IT技術を活用したICT教育の導入が進められている.本研究は,その技術の1つである教師のように勉強を教える教師型ロボットに着目し.より自然な学習支援を実現することを目標としている.ここで,学習者の困惑推定のため,従来は学習者の生体情報から推定していたが,学習者の負担や環境構築が困難なことが課題である.これに対し,本研究では学習者の表情のみから困惑推定する手法が提案されていた.加えて,認知的徒弟性理論に基づく支援段階を,学習者の問題に対する過去の正誤から切り替えることで,学習者の負担が少ない環境の提供が提案されていた.実際に大学生を対象とした実験とアンケート結果から,提案手法により自律的支援の実現ができたことが確認された.

十件目はエプソンアヴァシス株式会社と信州大学のグループの,黒石さんらによる発表『テキストによる目標設定が可能なロボット行動計画システム』である[10].本研究では,適切な作業手順によって行うべきタスクにおいて,初期状態画像と目標状態のテキストを入力することで,ロボット行動計画を生成するシステムの実現を目的としている.従来手法に,初期状態画像と目標状態画像から,それらを繋ぐ途中過程の状態画像をシーケンスツリーの構築により生成するものがあるが,本研究はこれをテキストで目標を指定するシステムに拡張する手法を提案している.これにより,システムをよりユーザーフレンドリーなものに発展できる.そこで,画像とテキストの類似度を算出するCLIPの学習をタスク領域で行うことを提案している.シミュレーション環境におけるロボットアームで,ピックアンドプレースの作業を対象に学習と行動計画の生成を行い,障害物がある環境でも,テキストによる目標指定だけで障害物を移動させてタスクを実現するような動作を得ることが確認できた.


3 おわりに

近年,機械学習や人工知能をロボットに応用する研究がされており,本記事ではそれらの分野に関連した発表についてまとめた.上記の発表についての詳細は参考文献をご一読ください.本記事をきっかけに,機械学習やAIの分野とロボット工学の分野規模での融合により,両分野の技術の共有と発展がなされることを期待したい.


参考文献

[1] 齊藤雅治,荒井幸代,“人流が内包する複数の意図識別法”, 人工知能学会全国大会(第37回),2O1-GS-8-01,2023.

[2] 境健太郎,荒井幸代,“動的環境下での頑健な制御を実現する強化学習法”, 人工知能学会全国大会(第37回),2O1-GS-8-02,2023.

[3] 中野将弥,長野匡隼,中村友昭,“ CycleGANを用いた実ロボットによる動作の模倣”, 人工知能学会全国大会(第37回),2O1-GS-8-03,2023.

[4] 岡田雅司,小松真弓,奥村亮,谷口忠大,“インピーダンス制御を意識した教示分節化と事前知識を利用した多目的ベイズ最適化による剛性パラメータの学習”, 人工知能学会全国大会(第37回),2O1-GS-8-04,2023.

[5] 高城頌太,谷口尚平,中野聡大,岩澤有祐,鈴木雅大,熊谷亘,谷中瞳,松尾豊,“大規模言語モデルを補助に用いた言語指示ロボット学習のタスク汎用性の分析”, 人工知能学会全国大会(第37回),2O1-GS-8-05,2023.

[6] VALENTINCARDENAS KEITH,崔龍雲,“トレイ上の複数物体のバランス維持のための深層強化学習を用いたロボットアーム制御の一手法”, 人工知能学会全国大会(第37回),4O2-GS-8-01,2023.

[7] 横堀一雄,荒木直人,赤星貞夫,“帆走型風力発電船の帆走技術”, 人工知能学会全国大会(第37回),4O2-GS-8-02,2023.

[8] 木俣雄介,仲野匠,辛徳,大海悠太,“Pepperのテレイグジスタンスシステムと情動システムの開発”, 人工知能学会全国大会(第37回),4O2-GS-8-03,2023.

[9] 大川航平,ジメネス フェリックス,秋月秀一,古川大弘,“困惑推定手法に基づき学習支援を提供する教育支援ロボットが大学生に与える学習効果”, 人工知能学会全国大会(第37回),4O2-GS-8-04,2023.

[10] 黒石茉未,アーノード ソービ,安達正,山崎公俊,“テキストによる目標設定が可能なロボット行動計画システム”, 人工知能学会全国大会(第37回),4O2-GS-8-05,2023.


袴田遼典(Ryosuke Hakamata)

2024年現在 東京工業大学工学院機械系エンジニアリングデザインコース 博士課程在学中.機械学習を用いた柔軟物による投擲制御の研究に従事.