Acoustic Information Science Laboratory

English page

音情報処理学講座党研究室

CONTENTS

研究概要
研究紹介: 研究内容; 研究発表
研究室紹介: 構成員; 研究機器; リンク

　党研究室

jdang@jaist.ac.jp

研究概要

研究の目的

音声は人間同士の間でのコミュニケーションにおける最も重要な媒質のひとつである。人間は舌、下顎及び口唇などの発話器官の調和運動により形成した声道形状に適切な音源を加えて音声を生成する。音声には、言語の情報だけでなく、様様な非言語情報（たとえば、個人情報、感情など）を含めている。我々は、計算モデルのシミュレーションや、音響学的及び生理学的な手法を用いて音声生成のメカニズムを解明し、さらにそのメカニズムを音声合成と音声認識及び、言語音声における障害の究明への応用を目指している。次に示すような目的を持った研究が必要である。

研究テーマ

　(1) 生理学的データに基づいて忠実的な発話機構モデルを構築　

本テーマの目標：　生理学的データに基づいて人間の発話機構を忠実的な三次元的発話機構モデルを構築する。これまで構築した発話機構モデルの精度を改善しながらモデル計算の高速化を追求する。　

生理学的データ：ある特定話者をモデル話者として、舌、顎、舌骨および声道壁の正中矢状面を中心とした三次元的なMR画像を目的に合わせて様様な条件で収録した。

手法：舌のモデルは正中矢状断面と1cm外側の傍矢状面のMR画像より抽出した輪郭により構成され、左右幅2cmの厚みをもつ。このモデル上に、同話者のMRIデータに従い舌筋を配置する。声道壁に相当する口蓋、咽頭後壁および下顎の表面は左右幅3cmの剛体壁からなる｡

モデル化：モデル計算の高速化を目指して軟組織である舌と硬組織である下顎・舌骨とを一体としたばね・質点ネットワークとしてモデル化する。ここで、硬組織のスティフネスは軟組織のものより極端に大きな値とする。これから有限要素法の手法を導入してモデルの精度を改善する。

モデルの制御：調音目標接近法により筋収縮パターンを推定し、それをモデルに組み込まれた筋モデルに与えることにより発話運動を実現することができる。以上により、このモデルは発話時の人間の調音動作を模擬することができる。

(2) 音声生成のメカニズムに関する研究

本テーマの目標：　人間の音声生成（特に感情を込めた会話音声の生成）のメカニズムを解明する。

関連研究：　三次元生理学的発話機構モデルに関する研究である。

手法：　発話機構モデルに調音運動目標点を入力として発話運動を計算する。得られた発話運動をMRIムービーやX線マイクロビームにより脳レベルでの発話運動プランの評価を行う。人間の音声生成メカニズムの解明及びそのメカニズムを音声合成と音声認識に適用する。

(3)個性のある音声合成に関する研究

本テーマの目標 音声の個人性と自然さを目指し人間の発話メカニズムに基づいて音声合成システムを構築する。

関連研究　発話器官の形状学的な計測とモデル化（静的な特性）および、発話機構モデル（動的な特性）に関する研究である。

手法： 声の個性を決めるものは、音声の生成に関与するこれらの発話器官の形状とその動きにおける個人ごとの差異である。この個人差には、生まれつき備わったものと、習慣として身についたものとがある。前者は、話者の年令・性別や発話器官の寸法に関連し、後者には、方言や育った環境などが含まれている。本研究は、前者の要素をはじめとするすべての要素の表現とモデル化を行う。こうした要素を考慮にいれた音声合成用のパラメータを用いて電気回路音響モデルにより音声を合成する。

(4)調音運動を考慮した音声認識に関する研究

本テーマの目標 人間の音声生成メカニズムを音声認識に適用させることにより、自然会話に対する音声認識率を上昇させる。

関連研究　 X線マイクロビームシステムなどにより収録した音声と調音データの分析、隠れマルコフモデル（HMM)などの音声認識に関する研究である。

手法： Bayesionネットワークを用い、調音運動のデータと音声信号とともに音響モデルのトレーニングに用いることにより、人間の音声生成メカニズムを音声認識に適用させる。

したがってこのような研究を行うためには、工学、生理学、音響学にまたがった分野での総合的な研究が必要なのである。

詳細は党　建武助教授の研究方針のページをご覧ください