コンピュータに耳と等価な機能をもたせる 試みをしています
鵜木研究室 UNOKI Laboratory
教授:鵜木 祐史(UNOKI Masashi)
E-mail:
[研究分野]
マルチメディア情報ハイディング、聴覚情報処理、音声信号処理
[キーワード]
音響情報ハイディング、聴知覚モデル、変調知覚、音環境理解、音声セキュリティ、深層学習
研究を始めるのに必要な知識・能力
聴覚心理学・生理学、情報科学の知識やプログラミング技術、プレゼン能力を必要とします。これらは研究室独自のゼミを通じて皆で知識をつけ能力を伸ばしていきます。一番求められることは、音の研究が大好きで、やりたい研究をやり通す強い気持ちをもっていることです。
この研究で身につく能力
チャレンジングな研究課題に取り組むため、研究に関する専門性が非常に高くなります。また、研究課題に関係なく、共に研究活動を深めていくことで、論理的思考や豊かな発想をもつ能力が向上し、プレゼン能力・技術論文等の執筆能力が磨かれます。博士前期課程(修士)の学生は、与えられた問題を自力で解決する術を身につけるため、研究課題が変わっても広く対応することができます。博士後期課程の学生は、研究に関する高い専門性を有するとともに、広い視点から研究課題を洞察する力をもち、自ら研究課題を発見してそれを解く能力を身につけることができます。基礎研究だけでなく、産学官連携を通じて応用研究まで視野にいれているため、将来はアカデミアの道に進むだけでなく、企業の研究・開発者としての道に進むこともできます。
【就職先企業・職種】 情報通信技術、音響機器、自動車関連企業など・システム開発研究職、研究職
研究内容
私達人間は、雑音や残響がある実環境において、いともたやすく狙った音を聴きとることができます。また、注意を誘導することにより、このような優れた能力をさらに発揮することができます。しかし、同じことを計算機上で実現することは非常に難しい問題です。もし計算機上に聴覚と機能的に等価な信号処理システムを構築することができれば、音声認識のための前処理や補聴システムといった様々な音信号処理に応用することができます。鵜木研究室では、聴覚の優れた能力に着目し、聴覚的な音信号処理の実現を目指しています。
*聴覚特性に基づいた信号分析
聴覚の主な機能は、音信号を周波数分析すること(能動的な周波数選択性)です。この分析は、非線形処理であることが知られています。本研究室では、聴覚心理物理実験から聴覚の優れた周波数選択性の機能を解明し、その実験結果に基づいて、聴覚による信号分析と機能的に等価な聴覚フィルタバンクの構築を試みています。さらに、注意を考慮した周波数選択性の機能解明にも取り組んでいます。
*聴覚特性を考慮した音信号処理
聴覚フィルタバンクを利用した音声信号処理の応用として、選択的音分離法(狙った音を聴きとる「聞き耳」モデル)や雑音残響除去法、変調伝達関数に基づいた残響音声回復法、骨導音声の明瞭度回復の研究を行っています。ここでは、非線形フィルタバンクとその後段の信号処理を確立することで、カクテルパーティ効果のモデル化にも応用することができます。
最近では、聴覚特性を熟知した上で音のセキュリティ対策に向けた研究にも取り組んでいます。例えば、図1に示すように、インターネットの普及に伴い、ディジタル音コンテンツの著作権保護などが問題になっています。鵜木研究室では、「蝸牛遅延特性」というヒトの聴覚が有する特性を逆手にとって、著作権情報を聴こえないように音楽情報に埋め込み、それを検出する方法を開発しています。この方法は悪意あるユーザに埋め込み情報を破壊され ず、容易に入手されないような工夫がなされています。
図1.マルチメディア情報ハイディングとその応用
主な研究業績
- Khalid Zaman, Melike Sah, Cem Direkoglu, Masashi Unoki, “A Survey of Audio Classification using Deep Learning,” IEEE Access, vol. 11, pp. 106620-106649, 2023. DOI: 10.1109/ACCESS.2023.3318015
- Suradej Duangpummet, Jessada Karnjana, Waree Kongprawechnon, and Masashi Unoki, “Blind estimation of speech transmission index and room acoustic parameters based on the extended model of room impulse response,” Applied Acoustics, vol. 185, Jan. 2022.
- Candy Olivia Mawalima, Kasorn Galajit, Jessada Karnjana, Shunsuke Kidani and Masashi Unoki, “Speaker Anonymization by Modifying Fundamental Frequency and X-Vector Singular Value,” Computer Speech & Language, 73, 2022.
使用装置
聴覚心理物理実験装置
防音室・簡易防音室・簡易無響室
機械学習向け高速計算サーバー
室内音響測定装置
研究室の指導方針
鵜木研究室では、π型(二つの研究課題を柱とした)研究アプローチをとっています。一つは、聴覚機能解明に関する「聴覚科学」、もう一つは、音信号処理に関する「情報科学」の研究です。二つをあわせて「聴覚的信号処理」の研究に取り組んでいます。この研究課題に取り組むために、主に輪講・ゼミを活用して、聴覚心理学、聴覚生理学、情報科学の分野を土台として、広く聴覚・音声・音響信号処理の知識を深めていきます。研究は一人で行うことが多いですが、私とはマンツーマンで、研究室メンバーとはともに切磋琢磨して、楽しい研究の時間を共有していきます。
[研究室HP] URL:https://www.jaist.ac.jp/~unoki/