第144回 ロボット工学セミナー実施報告
「ロボットのための音声・音響処理技術」
日時:2022年11月18日(金)10:00~17:10
会場:完全オンライン
参加者:24名
オーガナイザ:高椋佐和(株式会社アイシン)
サブオーガナイザ:安川真輔(九州工業大学)
セミナーURL:https://www.rsj.or.jp/event/seminar/news/2022/s144.html
セミナー概要
音情報を基に環境を理解する環境音認識分野や、コミュニケーションロボット適用を想定した音声認識分野の研究には,長い歴史があります。特に近年は、画像処理分野における深層学習アルゴリズムの発展の波が、音響/音声信号分野にも押し寄せてきており、各技術について目覚ましい発展が報告されています。本セミナーではロボット聴覚分野の研究のこれまでの取り組みや、音響/音声信号×機械学習という視点での最先端の研究事例や課題について、各先生からご紹介していただきました。
第1話:ロボット聴覚分野の歩みと最新動向・技術 ~ロボット聴覚5.0を超えて~
東京工業大学工学院システム制御系 教授 中臺一博 先生
2000年に中臺先生がご提案された“ロボット聴覚”の概念から、その後の発展について、ロボット聴覚1.0~5.0の5つのステージに分類した上で,聴覚情景解析,実時間両耳聴処理,マイクロホンアレイ信号処理,ドローン聴覚に代表される極限音響処理,深層学習技術との融合といった各ステージでの研究をご紹介いただきました。また、5種のステージに共通の課題であるマイクロフォンパラメータ校正について解説いただきました。数多くの音源定位・音源分離等の事例についてご説明いただくとともに、特に最新の研究内容として、実用シーンを想定した常時オンライン適応技術についてもご紹介いただきました。
第2話:コミュニケーションロボットにおける音声対話技術―基礎からアンドロイドへの応用まで―
京都大学情報学研究科音声メディア分野 井上 昂治先生
コミュニケーションロボットを支える主要技術である音声対話システムに焦点を当て、その基礎と応用事例についてご紹介いただきました。まず、音声対話システムについて、音声認識・言語理解・対話管理・応答文生成・音声合成という機能に分割し、各機能に機械学習を適用した事例をご説明いただきました。また音声の周波数特徴量を入力とし、ワード列を出力とする応答生成をEnd-to-Endで行うTransformer等を用いた最新アプローチも解説いただきました。音声対話システムの応用事例では、アンドロイドERICAへの傾聴や掘り下げ質問の実験を動画と共にご紹介いただきました。対話システム(掘り下げ質問)により、被験者の対話そのものへの印象が上がるとともに、アンドロイドへ感じる存在感も向上する結果を示していただきました。
第3話:異常音検知に対する深層学習適用事例
名古屋大学情報基盤センター 戸田智基先生
機械学習を用いた異常音検知の代表的アプローチとして、生成的アプローチ:Inlier Modeling (IM)と識別的アプローチ:Outlier Exposure (OE)をご紹介いただきました。前者は対象機器の正常音のデータを用いてその特徴をモデル化し、評価データをモデルに入力した際に外れ値となった場合に異常音データを検出手法です。一方で、後者は対象機器以外の正常音データを疑似異常音データとして利用して、正常/異常を分類するモデルを学習する手法です。両視点で、EUSIPCO等の学会で発表されている最新の研究事例についてご説明いただきました。また、音響処理技術の国際コンペであるDCASEチャレンジにおける異常音検知タスクへの取り組みについても、ご解説いただきました。ドメイン依存IMモデルの結果をドメイン分類器の事後確率で重み付けする等の対策により、名古屋大学は全参加チーム中2位の成績を示したことをご紹介いただきました。
第4話:深層・統計的機械学習に基づくロボット聴覚と雑踏音環境理解
産業技術総合研究所人工知能研究センター社会知能研究チーム 主任研究員 坂東 宜昭先生
マイクロホン周囲の音響情景を分析するロボット聴覚技術は,高い性能と環境ロバスト性を両立させる深層ベイズ学習に基づく音環境理解テーマの研究をご紹介いただきました。音源分離(強調)・音源定位・認識の3種の要素技術をマルチモーダル/アレイ信号処理の観点での最新研究の概観をご解説いただきました。また、実データへの適用事例として、CHiMEの音源分離のチャレンジや、日本科学未来館で収集したデータに対する音源定位への取り組みについて、動画と共にご紹介いただきました。
第5話:ドメイン知識を活用した環境音分析・合成研究の動向
同志社大学 理工学部 井本 桂右先生
環境音分析・合成技術の概要についてご紹介いただきました。特に後者の合成のテーマについてはConditional WaveNetやSampleRNNといった深層学習モデルを用いた最新研究事例を、通常環境音と合成音サンプルのデモもお示しいただきながら、ご紹介いただきました。また、環境音処理だけでなく、画像情報を入力しとして直接環境音や効果音を合成するマルチモーダルな視点での最新の取り組みをご解説いただきました。
まとめ
本セミナーでは、音響信号処理や音声対話システム関連処理をテーマに研究されている5名の先生方にご講演いただきました。音源定位・音源分離・環境音認識に関する2000年代から最新事例について、幅広く理解を深めることができ非常に有意義な機会となりました。また、各事例においても、実環境データを用いた実験やロボット実装時の実験の動画などご紹介いただき、実社会に応用していく上での効果や課題について知見を共有できる場になったのではないかと思います。
今回も当初はハイブリッド形式の予定でございましたが、オンライン形式での開催とさせていただきました。オンラインでのセミナー実施は,遠隔からの参加が可能という利点がある一方で、質疑におけるインタラクティブ性等に課題がありました。参加者からはslidoへの匿名の質問は多数いただきましたが、直接講師の先生に口頭で質問するケースがもっと増え、積極的なディスカッションがすすむことが望ましいと考えております。今回のセミナーでの得られた知見は,今後のセミナーにて活かされるように引き継ぎたいと思います。
謝辞
ご多忙の中講演をご快諾頂き素晴らしいご講演を頂いた講師の先生方に感謝申し上げます。
そして、本セミナーにご参加頂き熱心に聴講いただいた参加者の皆様にお礼申し上げます。
また、セミナーの企画・運営におきましては,事業計画委員会の皆様,特に委員長の槇田 諭先生(福岡工業大学)には企画立案や開催方針決め等、大変お世話になりました。改めてお礼申し上げます。
さらに、ロボット学会事務局皆様、特に水谷様、村上様、サブオーガナイザをお引き受けいただいた安川真輔先生(九州工業大学)には当日までの準備およびオンライン運営にて大変お世話になりました.心より感謝申し上げます。