音声コーデックの原理
音声コーデックの原理は,大きく次の3つの方式に分類する事ができます。これらの方式のビットレートと音声品質の関係を図2に示します。
(図2)音声コーデック方式による分類
波形符号化方式
入力信号の波形そのものの復元を目的とした方式です。 サンプル単位で処理を行い,各サンプルの量子化ビット数を減らしたり,隣接サンプルの相関性を利用した圧縮を行います。 入力信号を人間の声に限定しないので音楽や雑音などでも良好な品質が得られますが,他の方式と比べて高いビットレートが必要です。 またビットレートを低くすると極端に品質が劣化するという欠点もあります。 ITU-T G.711やG.726がこの方式です。
ボコーダ方式
人間の発声構造をモデル化した方式です。人間の声は肺から出た空気が声帯を振動させ, その振動(励振信号)が声道フィルタ(喉,鼻,唇など)を通って出て来たものです。 (図3)声道フィルタは合成フィルタとも呼ばれます。 ボコーダ方式のエンコーダでは有声音と無声音の区別,励振信号, 声道フィルタ特性などをパラメータ化し,デコーダではそのパラメータから音声を合成します。 ボコーダ方式では波形符号化方式のようにサンプル単位の処理ではなく, 複数サンプルを集めたフレーム単位で処理を行います。 人間の声道の特性は5~30msecごとに変化しますので,それに相当するフレーム単位で分析を行う必要があるわけです。 低ビットレートでも音声が再生出来るという利点はありますが,音声合成特有の不自然な音になりがちです。 また人間の声以外の信号では極端に品質が悪く,周囲雑音の影響を受けやすいという欠点もあります。
ハイブリッド方式
波形符号化方式とボコーダ方式の長所を合わせた方式です。 ボコーダ方式と同様な人間の発声構造をベースにしながら,入力信号の波形を出来るだけそのまま復元するための工夫が施されており, 低ビットレートでも波形符号化方式と同等な品質が得られます。 ボコーダ方式と同様に人間の声以外の信号では品質が悪くなる傾向があります。 また処理が非常に複雑になるという欠点もあります。 しかし「低ビットレート」と「音声での良好な品質」は,会話を目的としたVoIPには最適な方式です。 ITU-T G.723.1やG.729はハイブリッド方式の音声コーデックです。 ハイブリッド方式をさらに細かく分類すると,励振信号の生成手法によってCELP ,MPE,RPEなどの方式があります。