目次
音声によるコミュニケーションでは、話者は自分の意図を言葉(音声)で表現して聞き手に伝え、聞き手は時々相槌を打ちながら話者の意図を理解している。話者は自分の意図を言葉(音声)で表現する過程は音声生成である。音声を作成する側面からみると、音声生成は音声合成と似ているところがある。両者の基本的な違いは、音声生成に関する研究では、生成された音声信号だけでなく、音声生成過程も研究の対象となっている。
人間の音声生成(特に感情を込めた会話音声の生成)のメカニズムの解明により、個性があり自然性が良い音声合成システムの構築、音声生成メカニズムを取り入れた音声認識方法の開発、言語音声における病理の究明などを目指している。
音声生成過程では、発話者が発話意図に基いた運動指令に従い、発話器官を駆動して声道形状の時間変化を生成する。さらに、有声音の場合には声門に周期的なパルスを、無声子音の場合には声道の狭めにノイズを生成し、あるいは閉鎖点に破裂音源を発生させ、声道形状の変化により音色を調整することによって、最終的に口唇または鼻孔から音声波を放射する。
人間の音声は言語情報だけでなく様々な個人情報と感情などの非言語情報を含めている。声の個性を決めるものは、音声の生成に関与するこれらの発話器官の形状とその動きにおける個人ごとの差異である。この個人差には、生まれつき備わったものと、習慣として身についたものとがある。前者は、話者の年令・性別や発話器官の寸法に関連し、後者には、方言や育った環境などが含まれている。
日常会話の場合、発話速度と感情などの要素による影響で音声生成機構の物理的制約から調音結合と呼ばれる調音が不完全な部分が多数出現している。音声合成にはこうした生理学的な拘束を取り入れようとするに対して、音声認識にはこの拘束を排除しようとした。これを実現するため、さらに人間の生理学的なメカニズムを解明する必要がある。
人間はこのような多様な音韻を聞き分ける能力を持っている。生成と知覚は表裏一体であるので、音声生成のメカニズムの解明が音声知覚の面から考察する必要である。
発話器官の形状学的な計測: 話者の発話器官の寸法と微細構造にはかなりの個人差がある。その差は個人的な音色に寄与している。発話器官の形状学的なデータを計測するため、MRI装置はよく用いられる。
発話器官の動的特性の観測 発話器官の動的な特性の観測手法として、X線マイクロビームシステムとElectromagnetic Articulograph(EMA)、及びMRIムービーなどがある。はじめの二つの方法は動的な特性が良いが、発話器官上の離散的なポイントしか観測できない。MRIムービーでは発話器官の全体像が観測できる。特にATR先端情報科学部は最近で開発した3次元のMRIムービーによりあらゆる角度で発話器官の動きと変形を観測することが可能になった。ただし、この方法によるデータの収録には被験者はある程度の訓練が必要となる。
発話動作の運動計画について 脳機能の中では、発話は人間固有の極めて重要な情報生成手段であるが、発話器官を動作させるための脳内処理のメカニズムをまだ解明されていないことが多い。fMRI装置などでの観測と発話機構モデルの模擬により脳内での発話動作の運動計画(タスクプラニング)の解明を目指している。
これまで構築した発話機構モデルはある特定話者をモデル話者として、舌のモデルは正中矢状断面と1cm外側の傍矢状面のMR画像より抽出した輪郭により構成され、左右幅2cmの厚みをもつ。このモデル上に、同話者のMRIデータに従い舌筋を配置する。声道壁に相当する口蓋、咽頭後壁および下顎の表面は左右幅3cmの剛体壁からなる。
モデル計算の高速化を目指して軟組織である舌と硬組織である下顎・舌骨とを一体としたばね・質点ネットワークとしてモデル化する。ここで、硬組織のスティフネスは軟組織のものより極端に大きな値とする。これから有限要素法の手法を用い、ばねを太さと質量を設けることにより、集中質量を分散(可容)質量になり、さらにポアソン比を導入する。
モデルの制御では、現在調音目標接近法により筋収縮パターンを推定し、それをモデルに組み込まれた筋モデルに与えることにより発話運動を実現することができる。この制御法に用いた筋収縮パターンの推定過程は必ずしも生理学的な現象と一致するとはいえない。したがってモデルの制御法を改善する必要がある。
音声合成の方式はいくつかあり,前もって収録した音声信号から得られた素片によりデータベースを構築して、あるアルゴリズムに従って編集して音声を出力する、いわゆる編集合成方式が広く使われている。その他の方式として、ホルマント周波数をパラメータとするホルマント音声合成、調音器官の形状を制御する調音モデルを用いる合成方式などがある。調音モデルには、幾何学的なものと生理学的過程に基づくものに分けられる。いずれの調音モデルも、人間の発話メカニズムを模擬して動作させ声道形状を構成し、声道音響管内の音波伝播を計算することにより音声波を作成する。この方式では、音声の音響特性は、声帯振動の基本周波数と舌、下顎、口唇などによって形成される声道音響管の伝達特性が基本であり、これにさまざまな音源を用いる子音が加わる。
発話機構モデルを用いる音声合成システムを完成するため、当面に2つの問題を解決すべきである。
(1) 制御点の調音目標により単音節の音声合成ができたが、文脈により調音目標は多少変動がある。実用の音声合成システムを構築するため、文脈に基づいて調音目標を調整する規則を作成する。
(2) 現段階で有声音源は生理学的な音源ではなく、声門面積関数の波形音源である。良い音質を得るため、二質量モデルを元にして新しい音源モデルを開発する必要がある。
現在用いられている音声認識方式は、理想的な環境ではほとんど行き着くところまで行き、次のステップとして、どんな環境においても高性能な音声認識を行なう手法の開発が課題となっている。現在の手法では、ひとつの基本的な問題は認識のアルゴリズムには人間の音声生成のメカニズムを考慮に入れていない。ここで、我々は人間の音声生成メカニズムを音声認識に適用させることにより、自然会話に対する音声認識率を上昇させることを図る。
研究方針としては、2段階を分けて実施する予定である。
(1) 調音データと音声データを同時に収録したX線マイクロビームデータベースを用い、Bayesionネットワークに基づいて調音運動のデータを音声認識用の音響モデルのトレーニングに取り入れることにより、人間の音声生成メカニズムを音声認識に適用させる。
(2) 発話機構モデルによりトレーニング用のデータベースを作成する。このデータベースは、音素系列、調音目標系列、調音運動データと音声データからなる。このデータベースを用いて、人間の音声生成メカニズムを取り入れた音声認識手法の検証と改善を行う。