「聞き耳」型補聴システムの研究開発

 

 

 

 

プログラム名:ICTイノベーション創出型研究開発

 

研究開発重点領域名:ライフ・イノベーションの推進

         

1 研究開発の目的(詳細)

 

研究のねらい

我々の日常生活には,非常に重要なものからそうでないものまで様々な種類の音が溢れている.我々は生まれてから死ぬまでの間,音声や音楽,環境音,騒音といったありとあらゆる音に曝されることになる.聴覚は,このような雑多な音の情報から,我々が日常生活を快適におくるため(音を聞いて身を守るだけでなく,音を聴いて楽しむため)に必要な情報のみを適切に切り出す重要なモダリティである.例えば,駅構内のような様々な音が混在する状況であっても話し相手の声を選択的に聴取することができるし,音楽を聴きながら車を運転していたとしてもカーナビのガイダンス音や外のクラクションを能動的に聴取することもできる.また,視覚と違って,124時間,365日休むことなく外界から情報を受信しているため,危険を察知させたり,注意を引いたり,あるいは何らかの情報をインタラクティブに教示する場合には,聴覚刺激による情報呈示が有効である.しかし,このような聴覚の優れた能力は,聴取者が健聴でない場合,あるいは聴取者がいる環境が劣悪な場合(例えば,高騒音環境や高残響環境),十分に発揮されない.

 

 

図1 ユビキタス音声コミュニケーション

 

近年,情報通信技術(ICT)の急速な発展により,いつでもどこでも誰とでも安心・安全に音声を利用したコミュニケーション(ユビキタス音声コミュニケーション,図1参照)を実現できるだけの様々な要素技術(集音・音呈示技術,雑音除去技術,音声強調技術,音声符号化技術,音声認識技術,音声合成技術など)を得られるまでに至っている.しかし,実際にこれらの要素技術を単に組み合わせてコミュニケーションシステムを構築したとしても,音環境(生活環境の中にある音やこれらの要素技術によって提供されるもの)と聴取者の間を分断するいくつかの障壁(音環境ディバイド)が残っており,聴取者全員が同じだけの恩恵を受けられるかは疑問である.これらの要素技術の多くは利用者の聴取能力に頼る傾向があり,恩恵を受けるべき人が要素技術の性能に合わせ労力を払う必要がある(ある意味で負担を強いられている).また,高信頼で高速・高品質な音声情報通信のインフラが整備されていたとしても,人の聴取能力には個人差(例えば,子供や老人,健聴であるかどうか)があるし,それを利用する人がおかれている音環境にも違いがある(例えば,静かな自宅に居る人と騒がしい駅構内に居る人の間の音声コミュニケーション)ため,音声の明瞭性・了解性には違いが生じてしまう.更に,我々の身の回りには様々な意味のある音情報が溢れているため,すべての音情報を均質に呈示してしまうと,聴取者にとってどれが重要でどれが重要でないかの手がかりが分かり難くなる状況を生み出している.そのため,これらの障壁を取り除き,聴取者に労力をかけさせないような,音環境と人の調和がとれている状況を創出しない限り,ユビキタス音声コミュニケーションの実現は難しい

最も親和性に欠けた音情報呈示技術の典型的な例として,補聴技術があげられる(図2参照).冒頭で述べたように,人は様々な音が混在するなかでも選択的にかつ能動的に狙った音を聴取する能力をもつが,聴力が低下した場合,あるいは音環境が劣悪な場合,この優れた能力を十分に発揮することができない.我々の聴力は一般に加齢とともに低下するし,若年層であったとしても騒音に長時間曝露されることによって聴覚疲労が起こり,聴力損失にもつながる.そのため,補聴技術は必要不可欠なものである.現在のほとんどの補聴技術では,会話音声だけでなく,背景にある環境騒音までも増幅してしまう.最新のものには雑音除去の技術を組み込んだものもあるが,雑音除去による雑音の取り残し,音声歪やアーチファクトの発生を招いている.つまり,現状の技術では,聞きたい音だけを狙って増幅し,聞きたくない音だけを狙って抑圧することはできない.そのため,非常に不明瞭で不快な音を利用者に聴かせることになる.さらには報知音といった,聞き逃してはならない重要な音情報を聴取者に正確に送り届けている保証もない.そのため,補聴器の利用者の多くは,非常に煩わしい状況で補聴器を利用しなければならないし,重要な情報を聴き漏らしていないか非常に不安な状況で,必要以上の注意を払うことになり,結果としてその利用をやめてしまうことになる.

実際に聴力低下の問題を抱える人は非常に多いにも関わらず,補聴器の利用者が少ない理由には,デザイン性・ファッション性、装用すること自体への羞恥心といった社会的背景による影響もある.しかし,聴覚機能は視覚機能に比べて非常に複雑であるため,眼鏡やコンタクトレンズのように簡単に機能を回復する代用品を作ることはできない.また,上述するように,補聴器は親和性の欠けた音情報呈示技術の一つであることから,実際に利用したくても煩わしくて利用できないという問題も招いている.少子高齢化社会に突入した現在においては,このような問題を大至急解決し,高度な情報通信技術の恩恵を誰もが受けるようにするためにも,親和性に優れた補聴技術の革新的進歩が必要不可欠であるといえる.

 

 

 

2 音環境と聴取者の間を分断する障壁と親和性の低い補聴システムの例

 

 

   

3 変調伝達関数(MTF)と音声伝送指標(STI)の関係

 

着眼点

音バリアフリーやユニバーサルデザインの志向から,音環境設計における質的な検討(音声の明瞭性の向上,誘導音の検知力向上など)が,最重要課題となっている.室内音響の設計を行なう際,古典的にみると最適残響時間(中心周波数が500 Hzのオクターブ帯域内の残響時間と室容積の関係)の利用が主であったが,現在は室内インパルス応答から求められる音響指標を利用することが主となっている.代表的なものとして,ISO 3382-11997改訂)では,残響時間(T60)や音の透明性(C値),音の明確性(D値)があり,IEC 60268-16では,音声伝送指標(STI: Speech Transmission Index)がある.これらは,音声了解度や聴き取り難さといった室内音響の「質」を主観的に評価するのに重要なものであり,音バリアフリーを目指した室内音響設計では非常に重要な検討項目である.

室内音響特性は,室内(音響空間)を伝送経路と置き換えて,電話による通信と同様に通信経路の物理的な質が情報伝送性能を左右するという枠組みで検討されている.そのため,伝送経路の特性を知るためにインパルス応答を測定し,エネルギー的指標を求めて,室内の質の特徴付けを行なっている.変調伝達関数(MTF)は入出力間の変調度の比として定義され,STIはオクターブバンドごとに得られるMTFの荷重和として得られる(図1).しかし,室内インパルス応答の実測を前提とするため,聴力保護等の目的から人を排除して,人がいない室の特性が比較的安定しているうちに測定するか,あるいは複数回測定した後でその平均値を実測値として利用しなければならない.そのため,人を排除して測定できないような音環境(駅構内といった公共環境)や,人や物の出入りが激しく,時々刻々変化するような音環境には,現状の手法を適用することができないことになる.

申請者は,上記の問題を解決するために,系の測定をせずに観測した信号から残響時間T60を逆推定する方法を開発した(特許5077847).これまでに室内音響指標を逆推定する試み(室内音響特性を統計的に学習する方法を除く)はなく,本技術は非常に独創性の高い研究として認められ,応用展開が期待されている.この方法はMTFの概念に基づいているが,STIの導出にはMTFも利用されるため,本方法を拡張することで,T60だけでなくSTIも同時予測が可能である.MTFの定式化ならびにSTI算出法は,既にHoutgast & Steeneken (1973)によって確立されたものであるが,観測した信号からMTFを逆推定する枠組みは,研究代表者が確立したものであり,STIベースの音声回復法にまで拡張されている(鵜木, 信号処理学会論文誌, 12(5), 339-348, 2008; 13(1), 3-12, 2009; 13(2), 91-101, 20093編).この方法を利用すれば,聴取者のいる未知の音環境であっても室内音響特性(STI)を常にモニタリングし,その音環境によって低下した音声明瞭度・了解度を観測されたSTIに基づいて音声回復法を適用することで,劣悪な環境でも聴取者に適切な音情報を呈示することができる.

冒頭でも説明したが,ヒトには能動的で選択的な聴取能力(以後,「聞き耳」と呼ぶ)がある.「聞き耳」は,一般に注意と密接な関係があり,うまく注意を誘導することでその能力を最大に発揮させることが可能である.我々はこの能力を駆使して,音を通じて環境理解(音情報分析)を深め,旧来は敵から捕食されないように身を守り,現代では更に音(音声)を使ったコミュニケーションに発達させてきた.例えば,非常に聴き取り難い音であったとしても,事前にその音を呈示した後で注意して音を聴かせれば,その音を容易に聴き取ることができる.また,多少劣悪な音環境であったとしても,狙った音を容易に聴き取ることもできる(カクテルパーティ効果と呼ばれる).この「聞き耳」は,ヒトが本来持っている能力であり,音環境に対して適応的かつ能動的に行っているごく自然な労力のかからない行為である.上述のようにSTIを手がかりとして音環境をモニタリングし,さらにはSTIベースで音声明瞭度・了解度を適切に回復することで,音環境ディバイドを取り去ることができるだけでなく,「聞き耳」を更に有効活用する状況を聴取者に提供することもできる.

以上から,申請者は,音環境が人と適応的,親和的かつ能動的に相互作用する,安心で安全なユビキタス音声コミュニケーションを実現するために,ヒトのもつ「聞き耳」の能力を再認識し,音情報呈示技術が「聞き耳」にどのように相互作用することができるか明らかにする必要があると考えている.また,音呈示技術自体がヒトに歩み寄って障壁自体を感じさせずに,聴取者がいつでもどこでも誰とでも安心・安全に音声コミュニケーションにこの能力を発揮できる環境を提供することが,音環境と人の調和を図るための重要な鍵であると考えている.そのため,現在の補聴器のように聴取者に負担をおわせるようなものではなく,補聴器自体が音環境ディバイドを把握しながら,音環境ディバイドの影響を受けた音声を自動的に回復し,さらには我々に注意を誘発することで,常に「聞き耳」の能力を最大限発揮させてくれるような音情報呈示装置(ここでは「聞き耳」型補聴システムと呼び,機能的には,ヒトの聴覚と同等かそれを超えるものとする)をつくることが真の親和性に優れた音情報呈示技術の革新につながるものと考える.

本研究では,ヒトの「聞き耳」能力に着目し,(1) 補聴システム自体が人に代わって音環境を把握するための方略と音環境ディバイドによって受けた影響を適切に取り去る方略,(2) それに沿って聴取時の注意の推定と注意を誘発するための方略を明らかにすることで,安心・安全なユビキタス音声コミュニケーションを提供するための,ヒトと音環境の親和性の高い音情報呈示技術(「聞き耳」型補聴システム)の確立を目指す.そのため,本提案課題は,最初の取り組みとして,課題(1)に重点を置き,フェーズTの研究として取り組むものである.その成果を踏まえ,次年度のステップでは,課題(2)に重点をシフトし,最終目標に到達するためにフェーズUの研究として申請するものとする.本申請では,フェーズUの構想にも簡単に触れるが,フェーズTの研究課題を主として提案する.