ではそのフォルマントとは何かというと、特定の周波数域だけを良く通すフィルターのようなものです。
例えば、一握りの砂から直径0.3〜0.6mmの砂粒だけ抜き出すとしましょう。最初に0.6mm以下の直径のツブだけを通す濾過器(フィルター)を通します。そうすると、フィルターを通った0.6mm以下のツブだけを得ることができます。次に、0.3mm以下の直径のツブだけを通すフィルターを通します。そうすると、フィルターの中に0.3〜0.6mmの砂粒だけが残ることになります。
同様に、音でも特定の周波数を通すようなフィルターをかけることが可能です。特に人の声において、このようなフィルターの役割を示すものをフォルマントと呼ぶのです。
人が声を発したとき、その音を分析してみると、周波数のグラフの上にいくつかのこぶが現れます。そのこぶの一つ一つがフォルマントです。それぞれのこぶを、小さい周波数から順に第一フォルマント(F1)、第二フォルマント(F2)・・・と名付けます。図は、私が「えー」と歌ったときのスペクトルです。各倍音のトンガリをつなげると、フォルマントの形が見えてきます。
<図19-1 筆者の「え」の声のスペクトル>
音声認識の学問の世界では、実はほとんどの母音は第一フォルマントと第二フォルマントの二つだけで識別可能だと言われています。例えば「あ」なら第一フォルマントが700[Hz]くらい、第二フォルマントが1400[Hz]くらいになります。この付近にフォルマントがある音は「あ」と識別することが出来ます。下図では、各母音と認識できる範囲を、二つのフォルマントから示しています。
<図19-2 第一、第二フォルマントと母音の認識>
ただしこの値は、人によって、性別によって、住んでいる地方によって、変わりますから一概には言えません。特に話し言葉の場合は、前の母音や子音などによってもフォルマントの位置が変わります。なかなか機械的に、この音なら「あ」と判断するのは難しいのです。
英語で、”o”の発音なのに、日本人には「あ」に聞こえたり、”a”の発音なのに「え」に聞こえたりするのは、フォルマントの分布が重なっているからだとも言えます。英語の”o”のフォルマントの分布が、日本語の「あ」とかなり近いところにあるのです。
0 件のコメント:
コメントを投稿