音声に個人性が含まれるということは周知の事実であるが、ではどのような物理量が音声の個人性を決定する要因になっているのかという問に対する答えは未だ完全ではない。
音声は、声道情報を反映したスペクトルの包絡特性および声帯情報を反映した基本周波数特性の二つの物理量で大まかには記述されると言われているが、個々の物理量に潜む個人性関連量についての細かい議論はあまりなされていないのが現状である。また、個人性知覚に関連する物理量を積極的に制御し、音声認識・合成に応用する研究はほとんど行われていない。
個人性に関連する個々の物理量を抽出しこれを制御する方法を見つけ出すことは、音声の個人性を議論する基礎的な研究に貢献するのみでなく、応用面としての音声認識・合成技術において非常に重要な要素となる。たとえば、個人性制御モデルが構築されれば、個人性を音韻性を損なわない範囲で除去することが可能となり多数話者音声認識の認識率向上が期待できる。また、合成音声に個人性を付与できることとなり多様な合成音声が得られることとなる。さらに、個人性情報を抽出できるようになり話者認識・照合のための特徴量として使用できるようになる。
人間が個人差を知覚する場合に有効な物理量としては、過去の研究から基本周波数と特定の帯域のスペクトル包絡特性が知られている。そこで、個人性の知覚と物理関連量およびこれらの制御法を得るために、スペクトル包絡と基本周波数に埋め込まれた物理関連量を検出することを試みる。この場合、人間が個人差を知覚する時に用いる物理量が最も個人性を表す物理量であるという仮定を設け、個人差の知覚と様々な物理量の関係を心理物理実験を通して明らかにすることとする。
3.1 スペクトル包絡に含まれる個人性[15]-[19] (研究期間:1992 - 1997)
音声分析合成システムを用いて、実音声から得られたスペクトル包絡を様々に変形した音声を合成する。そして、これを刺激音として用いた心理物理実験から、次のことが明らかとなっている。
(1) スペクトルの分散を調べた結果、22 ERB rate (約2.2 kHz)を境として低域は音韻差による分散が大きく、高域は個人差による分散が大きい(図8)。これは、スペクトルの高域に個人差が含まれていることを示唆する結果である。
(2) スペクトル包絡の22 ERB rateを境とした低域と高域を独立に変形した音声を刺激音として、被験者に個人性判断を行わせた結果、高域の変形に対して個人性判断が敏感であった。これは、個人性はスペクトル包絡全体に現れるが、高域により多く現れることを示すものである。
(3) また、高域スペクトル中のどのような特徴が個人性判断に関係しているかを、高域のスペクトル包絡を変形した音声(図9)を用いて聴取実験により調べた結果、話者識別率が高い方からORG > PEAK > DIP > REGとなり、話者識別にはスペクトル包絡のディップよりもピークが重要な意味を持っていることが明らかとなった。
(4) これらの知見を基に声質変換を試みた結果、個人性はスペクトル包絡の 20 ERB rate付近のピーク以上の帯域に顕著に現れ、この帯域を利用して声質変換が可能であることがわかった。
(5) また、この帯域を単純類似度法による話者認識に利用すると高い弁別能力が得られることも明らかとなった。
3.2 基本周波数に含まれる個人性[20][21] (研究期間:1993 - )
基本周波数包絡を藤崎モデルによって記述し、モデル中のどのパラメータが個人性判断に関係するかを心理物理実験を通して調べた。その結果、
(1) パラメータは、包絡の変化の大きさを表すものとアクセントなどのタイミングを表すものに大別される。それぞれのパラメータの個人差による分散をF比によって調べた結果、包絡の変化の大きさを表すパラメータの分散が大きくなっていた。これは、包絡の変化の大きさを表すパラメータが個人性を多く含むことを示唆するものである。
(2) タイミングを表すパラメータはそのまま用いて、包絡の変化の大きさを表すパラメータを他の話者と入れ換えた音声を合成する(図10)。これを被験者に呈示し個人性判断を行わせた。実験結果は、約9割が包絡の変化の大きさを表すパラメータを用いた話者として判断している。この結果は、包絡の変化の大きさを表すパラメータが基本周波数包絡の個人性を表す重要な物理量であることを示している。この結果を用いれば、音声合成において基本周波数包絡を用いた話者変換が可能となる。筆者はこの研究[21]で日本音響学会佐藤論文賞を受賞した。
3.3 異常構音の診断に向けて[22][23] (研究期間:1994 - )
言語障害による異常構音も、音声の個人性の一分野である。本研究では、昭和大学歯学部と共同で、異常構音の一種である側音化構音を扱っている。
側音化構音とは、舌、顎などに形態的障害がないにもかかわらず、子音/sh/, /ch/などを発話する場合、舌を口蓋中央に接触させるために、呼気が臼後部より口腔前庭の側方より出ることにより音が歪むものである。正常構音の場合は呼気は口腔正中より出るが、側音化構音の場合は口腔の側方より出るために独特の歪み音を呈する。構音時に口唇が側方へ変移することもある。舌、顎などの運動機能が未熟な小学校低学年でよく見受けられる。
診断は、ステンレス板による呼気の流出部位検査、エレクトロ・パラトグラフィーによる舌の接触様式の測定、舌造影側方頭部X線規格写真法(X線セファログラフ)を用いて客観的に行なわれなければならないが、膨大な時間がかかるため、現在は言語臨床家による聴覚印象に基づいた臨床診断に頼っているのが現状である。そこで、言語臨床家は異常構音のどの特徴をとらえて診断を下しているのかを、工学的手法および心理物理学的手法を用いて特定し、側音化構音診断の自動化を試みている。