日本のロボット研究の歩みHistory of Robotics Research and Development of Japan2013Integration, Intelligence, etc.〈インテグレーション・知能ほか〉ロボット聴覚のための実環境ロバストなマイクアレイ処理
中村 圭佑 | 株式会社 ホンダ・リサーチ・インスティチュート・ジャパン |
三浦 弘樹 | 東京工業大学 |
吉田 尚水 | 東京工業大学 |
坂東 宜昭 | 京都大学 |
水本 武志 | 株式会社 ホンダ・リサーチ・インスティチュート・ジャパン |
中臺 一博 | 株式会社 ホンダ・リサーチ・インスティチュート・ジャパン |
奥乃 博 | 京都大学 |
この論文は、ロボット研究開発アーカイブ「日本のロボット研究開発の歩み」掲載論文です。
人とロボットの会話によるインタラクションは重要であり、我々はロボット自身の耳(ロボットに搭載されたマイク)を用いて周囲の音を聞き分けるロボット聴覚[1] の実現を目指してきた。携帯電話などの接話マイクを用いた音声認識に比べ,ロボットに搭載されたマイクを使った音声認識は,発話者からマイクの距離が遠く信号対雑音比が低い,発話者数は単独であると仮定できないという特徴がある.ロボット聴覚では,マイクロホンアレイ処理を用いて空間的に複数の異なる音源を図1 のように定位・分離することでこれらの問題に対処している.これらのマイクロホンアレイ処理には, 各マイクロホンの位置もしくは音源とマイクロホンアレイ間の伝達関数が既知であること,全チャネルを同期収録することが必要とされる.文献[2] で我々は,これらの問題をオンラインで解くため,拡張カルマンフィルタ(Extended Kalman Filter, EKF) に基づくSimultaneous Localization and Mapping(SLAM) と遅延和ビームフォーミングを組み合わせた手法(図2)を提案し, マイクロホンアレイの周りを人(音源)が十数回手を叩きながら歩くだけで非同期マイクロホンアレイのキャリブレーションが可能な手法を提案した。また、文献[3] で我々は、ロボットから音を発生させてロボット自身で自らのマイクロホンアレイをキャリブレーションする手法を開発した。また、文献[4] で我々は、ロボットにおけるマイクロホンアレイ処理(音源定位・分離)の性能として主要な、1)ロボットのモーターやファンの大きなパワーの自己雑音下であっても正しく目的音を処理できる雑音ロバスト性、2)空間的に近接した音源を正しく定位・分離できる空間分解能、3)ロボットが自然な音声インタラクションができるための実時間性の数理モデルに基づく向上について述べた(図3)。論文では、1)に対して、目的音に対する定位の実環境雑音ロバスト性の拡充のため、一般化固有値分解を用いたロボットの自己雑音空間白色化に基づく音源定位、2)に対して、音源定位の空間分解能向上のため、ハイブリッド伝達関数補間法による超解像音源定位・分離を、3)に対して、音源定位の実時間処理のため、一般化特異値分解に基づく音源定位、音源探索の探索コストを最小化する最適階層化処理を提案した。これらの技術を実環境ロボットに適用することで、聖徳太子のように複数の人の声を同時に聞き分ける複数同時音声認識ロボットや屋外で飛行するクワドロコプタによる音源定位などを実現している。
2014年 第2回日本ロボット学会Advanced Robotics Best Paper Award受賞
2012年 第27回日本ロボット学会研究奨励賞
IROS 2011 Best Paper Award Finalist in 2011.
IEEE Robotics and Automation Society Japan Chapter Young Award in 2013.