SEARCH
MENU

日本のロボット研究の歩みHistory of Robotics Research and Development of Japan2013Integration, Intelligence, etc.〈インテグレーション・知能ほか〉ロボット聴覚のための実環境ロバストなマイクアレイ処理


中村 圭佑株式会社 ホンダ・リサーチ・インスティチュート・ジャパン
三浦 弘樹東京工業大学
吉田 尚水東京工業大学
坂東 宜昭京都大学
水本 武志株式会社 ホンダ・リサーチ・インスティチュート・ジャパン
中臺 一博株式会社 ホンダ・リサーチ・インスティチュート・ジャパン
奥乃 博京都大学

この論文は、ロボット研究開発アーカイブ「日本のロボット研究開発の歩み」掲載論文です。

人とロボットの会話によるインタラクションは重要であり、我々はロボット自身の耳(ロボットに搭載されたマイク)を用いて周囲の音を聞き分けるロボット聴覚[1] の実現を目指してきた。携帯電話などの接話マイクを用いた音声認識に比べ,ロボットに搭載されたマイクを使った音声認識は,発話者からマイクの距離が遠く信号対雑音比が低い,発話者数は単独であると仮定できないという特徴がある.ロボット聴覚では,マイクロホンアレイ処理を用いて空間的に複数の異なる音源を図1 のように定位・分離することでこれらの問題に対処している.これらのマイクロホンアレイ処理には, 各マイクロホンの位置もしくは音源とマイクロホンアレイ間の伝達関数が既知であること,全チャネルを同期収録することが必要とされる.文献[2] で我々は,これらの問題をオンラインで解くため,拡張カルマンフィルタ(Extended Kalman Filter, EKF) に基づくSimultaneous Localization and Mapping(SLAM) と遅延和ビームフォーミングを組み合わせた手法(図2)を提案し, マイクロホンアレイの周りを人(音源)が十数回手を叩きながら歩くだけで非同期マイクロホンアレイのキャリブレーションが可能な手法を提案した。また、文献[3] で我々は、ロボットから音を発生させてロボット自身で自らのマイクロホンアレイをキャリブレーションする手法を開発した。また、文献[4] で我々は、ロボットにおけるマイクロホンアレイ処理(音源定位・分離)の性能として主要な、1)ロボットのモーターやファンの大きなパワーの自己雑音下であっても正しく目的音を処理できる雑音ロバスト性、2)空間的に近接した音源を正しく定位・分離できる空間分解能、3)ロボットが自然な音声インタラクションができるための実時間性の数理モデルに基づく向上について述べた(図3)。論文では、1)に対して、目的音に対する定位の実環境雑音ロバスト性の拡充のため、一般化固有値分解を用いたロボットの自己雑音空間白色化に基づく音源定位、2)に対して、音源定位の空間分解能向上のため、ハイブリッド伝達関数補間法による超解像音源定位・分離を、3)に対して、音源定位の実時間処理のため、一般化特異値分解に基づく音源定位、音源探索の探索コストを最小化する最適階層化処理を提案した。これらの技術を実環境ロボットに適用することで、聖徳太子のように複数の人の声を同時に聞き分ける複数同時音声認識ロボットや屋外で飛行するクワドロコプタによる音源定位などを実現している。

2014年 第2回日本ロボット学会Advanced Robotics Best Paper Award受賞
2012年 第27回日本ロボット学会研究奨励賞
IROS 2011 Best Paper Award Finalist in 2011.
IEEE Robotics and Automation Society Japan Chapter Young Award in 2013.

ロボット聴覚システムと課題
ロボット聴覚システムと課題
非同期マイクロホンアレイのオンラインキャリブレーション
非同期マイクロホンアレイのオンラインキャリブレーション
雑音ロバストな実時間超解像ロボット聴覚システム
雑音ロバストな実時間超解像ロボット聴覚システム
 

動画


対応論文


Keisuke Nakamura, Kazuhiro Nakadai, Hiroshi G. Okuno:A real-time super-resolution robot audition system that improves the robustness of simultaneous speech recognition

Advanced Robotics, Vol. 27, No. 12, pp. 933-945, 2013.

中村圭佑, 中臺一博, インジュギョカン:ロボットを対象にした複数同時発話にロバストな音源定位の検討

第29回日本ロボット学会学術講演会, pp. AC3A3-1, 2011.

Hiroki Miura, Takami Yoshida, Keisuke Nakamura, Kazuhiro Nakadai:SLAM-based Online Calibration of Asynchronous Microphone Array for Robot Audition

in Proceedings of 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2011), pp. 524-529, 2011.

Yoshiaki Bando, Takeshi Mizumoto, Katsutoshi Itoyama, Kazuhiro Nakadai, Hiroshi G. Okuno:Posture estimation of hose-shaped robot using microphone array localization

in Proceedings of 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2013), pp. 3446-3451, 2013.

関連論文


[1] Kazuhiro Nakadai, Toru Takahashi, Hiroshi G. Okuno, Hirofumi Nakajima, Yuji Hasegawa, Hiroshi Tsujino, "Design and Implementation of Robot Audition System 'HARK' — Open Source Software for Listening to Three Simultaneous Speakers", Advanced Robotics, Vol. 24, No. 5-6, pp. 739-761, 2010.
[2] Hiroki Miura, Takami Yoshida, Keisuke Nakamura, Kazuhiro Nakadai, "SLAM-based Online Calibration for Asynchronous Microphone Array", Advanced Robotics, Vol. 26, No. 17, pp. 1941-1965, 2012.
[3] Yoshiaki Bando, Takuma Otsuka, Kazuhiro Nakadai, Satoshi Tadokoro, Masashi Konyo, Katsutoshi Itoyama, Hiroshi G. Okuno, "Posture Estimation of Hose-shaped Robot by using Active Microphoe Array", Advanced Robotics, Vol. 29, No. 1, pp. 35-49, 2015.
[4] Keisuke Nakamura, Kazuhiro Nakadai, Hiroshi G. Okuno, "A real-time super-resolution robot audition system that improves the robustness of simultaneous speech recognition", Advanced Robotics, Vol. 27, No. 12, pp. 933-945, 2013.